IMPORTXML関数を使うと、Pythonのスクレイピングのように、サイトから目的のデータを取得可能。

スプレッドシート

GoogleスプレッドシートのIMPORTXML関数を使うと
HTMLのページの中から、指定の場所のデータを
スプレッドシートにインポートすることが可能です。

他にも、XML・CSV・RSSフィード・TSV
Atom XML フィードなども可能です。

この記事ではその方法を書いていきます。

IMPORTXMLの数式

IMPORTXML関数は下記のように書きます。

IMPORTXML(“ページURL”,”XPath”)

ページURL
データを取り出したいページのURL

XPath
取り出したいデータのXPathクエリ。

 

XPathの調べ方

XPathの調べ方は簡単です。
この記事では、Googlechromeを使っていきます。

データを取得したい場所を選択した状態で、
右クリック⇒ 検証をクリック。

 

 

今回は在庫数のデータを取得するやり方で説明します。

デベロッパーツールが表示されます。
上部の□マークの所を選択した状態で、再度データを
取得したい場所にカーソルを合わせてクリックします。

 

 

するとデベロッパーツールの該当箇所に青い線が
表示されます。

 

 

左端の点の部分を右クリック。

コピー⇒ XPathをコピーか完全なXPathをコピーの
どっちかをクリックで、コピー出来ます。

 

 

そのまま、関数に貼り付けます。
これで、XPathの取得が完了。

 

XPathをコピーで取得した値
//*[@id=”detailInfo”]/ul/li[6]/span

完全なXPathをコピーで取得した値
/html/body/center/center/div/div[2]/table/tbody/tr[1]/td[3]/form[2]/div/div/div[2]/div[2]/ul/li[6]/span

 

XPathをコピーで取得した値を記入する場合の注意。

真中に、ダブルクォーテーションで囲まれた部分があります。
今回の場合は、“detailInfo”になります。
このままだとエラーになります。

この部分を、シングルクォーテーションに変更するとOKです。
‘detailInfo’ に変更すると大丈夫。

 

 

 

 

Googleスプレッドシートの関数の所に、
URLとXPathを記入して、データの取得が可能になりました。

 

 

 

 

IMPORTXML関数使ってみて

このIMPORTXML関数は、大手のサイトでは使えません。
ちょっとしたデータの取得には便利ですが、
データ取得の精度はあまりいい感じではなかったです。

また、データ収集には重たい感じなので、多くのデータ取得
には使用できない感じです。

使用するには注意が必要になります。
また、スクレイピングを行う場合は、最新の注意で行いましょう。

 

 

YouTubeでも配信中

 

 

おすすめの教材

動画で勉強できるからわかりやすい
Udemy。私もよく使ってます。

無料で使える表計算ソフトの「Google Spreadsheet」を
基礎から応用までしっかり学習!
データの共有方法からグラフ作成、ピボットテーブルまで
しっかり習得出来る!演習問題付きだから技術が身につく!

これから始める「Googleスプレッドシート」基礎講座

コメント

タイトルとURLをコピーしました