ウィリスの宇宙交信記

超絶怒涛のスーパーミラクル雑記ブログ

【Pythonによるスクレイピング&機械学習】一通り読んだからレビューするよ!入門者向けではないけど、情報量が多い最高の参考書

f:id:uxirisu:20171209214236j:plain

 

Pythonによるスクレイピング&機械学習[開発テクニック]

一通り読んだからレビューします

 

Pythonでスクレイピングやクローリングをしてみたい人は一読してみてください

 

 

この本で学べること

この本はPythonでスクレイピングと機械学習をやってみたい人向けです

1章〜3章でスクレイピングを学べます

4章〜7章で機械学習が学べます

 

スクレイピングとは

スクレイピングはサーバサイドのプログラミング言語を使って外部サーバへアクセスし、そのコンテンツから自分たちの欲しい情報を引き出す手法です。多くはHTMLを返す場合に使われ、DOMを解析したり正規表現を使ってデータを抜き出します。

出典:スクレイピングとAPIの違い | NTT Communications Developer Portal

 簡単に言えば、Webページの欲しい情報を取ってくる手法のひとつです

 

たとえば、Yahoo!ニュースのタイトルだけを取得するようなこともできます

多数のブログの読者数だけを取得してランキングを作成するようなこともできます

 

BeautifulSoupライブラリを用いて、実際にスクレイピングします

正規表現などは出てきません

実用的なものだけを使って行く感じです

 

他には、urllib、mySQL、cron、JSON、pandasなどが登場します

 

機械学習とは

人工知能における研究課題の一つで、人間が自然に行っている学習能力と同様の機能をコンピューターで実現しようとする技術・手法のことである。

例えば、車の画像を大量に機械に与えて学習させると、任意の画像から車が写っているかどうか判別できるようになったりします

 

ここでは「機械学習とはなにか」から入ります

しかし、「復習まとめ」的な内容になっているので、全く知らない状態から入るのは難しいと思います

 

基本的なサポートベクターマシーンを使った方法から深層学習まで学習できます

最後には実践内容があるのがよかったです

「牛丼屋のメニューを画像判定しよう」とかありますからね

 

ここで学ぶキーワードとしては

ニューラルネットワーク、形態素解析(MeCabとかJanomeとか)、TensorFlow、keras、JupyterNotebookなどです

 

 

機械学習では、機械に学習させるための大量のデータが必要です

スクレイピングを使うと、大量のデータをネットから取得できるので、たびたびスクレイピングと機械学習はセットで登場します

 

 

入門者用ではない

はっきり言って入門者用ではありません

Linuxコマンドが全くわからない、Pythonが全くわからない、機械学習が全くわからないならちょっと難しいと思います

 

サンプルソースがあるので、コピペしてりゃできますが、理解しているわけではないですからね

 

ただただ実践的なので、これ一冊読めば簡単なスクレイピング&機械学習はできるようになる感じです

説明も充実しており、量も多いです

 

 

内容は実践的

f:id:uxirisu:20171209214619j:plain

(中身は黒と青の二色使い)

 

なんども言いますが内容はとにかく実践的です

スクレイピングや機械学習の「理論」の部分は少ないです

 

実際にするなら使うであろうライブラリやソフトを紹介しつつ、例(サンプルコード付き)を進めていきます

 

この本一冊前から読み進めれば、一連の流れは学習できます

 

 

まとめ

 

おすすめしたい人

  • スクレイピング&機械学習を一連の流れで習得したい人
  • すぐにでも実践&実用化したい人

逆に、linuxって何?Pythonって何?って人は一呼吸おいたほうがよさそうです

ターミナル(端末)など使ったことがない人も危ういかもしれません

(頑張れば並行して勉強できることはできるけど)

 

現在アマゾンで3500円ほどです

内容としては十分すぎる情報、理解しやすい話し言葉の文章でよかったです

とにかく様々な情報が詰め込まれています

実践の例(コード付き)も理解しやすく個人的に高評価です

スクレイピング&機械学習を学習してみたい人はぜひ!

 

 

関連記事