素人プログラミング日記

素人のプログラミングに関する日記

ラズパイでWebスクレイピングできるように整える

自分が知ってるpythonスクレイピングする方法で思いつくモジュールは2つ

 

requests

selenium + chromedriver

 

上記のどちらかで取得したhtmlを

beautifulsoupで分解して必要な情報を抽出するという流れ

javascriptが多様されているWebサイトならばselenium+chromedriverじゃないと厳しい

 

ということでとりあえずselenium+chromedriverを使える環境にしたいと思う

ラズパイにいれたraspbianというOSにはChromiumというブラウザが入っていた

あまり知らなかったが、軽く調べるとchromeの簡易版みたいなもんだろうか

ja.wikipedia.org

 

取り急ぎターミナルを立ち上げ以下を入力

pip3 install selenium

seleniumが入った

あとはdriverが必要だがchromedriverで良いのだろうか?

試してみた結論エラーが出てダメだった

たぶんChromiumのdriverじゃないとダメなのかなと思って検索してもダウンロードできるそれっぽいサイトが見当たらない

ターミナルからコマンド入力して取得する方法は出てくるが、慣れてないので配布しているサイトがないか探してみたが見当たらなかったのでターミナルから入れることにする

 

ググって見つけたシンプルなコードを入力

sudo apt install chromium-chromedriver

 うまくダウンロード成功

 

こちらを参考にさせていただきました

blog.naguu.info

 

 

seleniumとwebdriverが揃ったので試しにpythonのコードを書いて試してみる

 

from selenium import webdriver

url = "https://www.google.com"

driver = webdriver.Chrome(executable_path='chromedriverのフルパス')
driver.get(url)

web.pyとでも名付けて保存

 

うまく動くかターミナルから起動します

python3 /置いている場所/web.py 

 

見事ブラウザが立ち上がり成功した

 

と今日はここまで