夢がいっぱい

楽しみを求めてハマりだす

Python初心者エンジニアにおすすめの機械学習プログラミングサービス

(WORD,COUNT)

('おすすめ', 36)

('エンジニア', 31)

('機械学習', 19)

('初心者', 14)

('Python', 14)

('サービス', 13)

('プログラミング', 13)

('はあちゅう', 10)

('日本人', 9)

('Google', 9)

('Web', 9)

('ベンチャー', 9)

('仮想通貨', 9)

('はてなブログ', 9)

('Linux', 8)

('IT', 8)

('株式会社', 7)

('Amazon', 7)

('メルカリ', 7)

('ヨッピー', 7)

('ランキング', 7)

('プログラマ', 7)

('人工知能', 7)

('Webサービス', 7)

('コードレビュー', 6)

('Go', 6)

('Rails', 6)

('おっさん', 6)

('AWS', 6)

('日本語', 6)

('デザイン', 6)

('システム', 6)

('Twitter', 6)

('AI', 6)

('弁護士', 6)

('脆弱性', 5)

('SQL', 5)

('Ruby', 5)

('セックス', 5)

('おじさん', 5)

('RaspberryPi', 5)

('オススメ', 5)

('フロントエンド', 5)

('YouTube', 5)

('リベラル', 5)

('民進党', 5)

('チェックリスト', 5)

('データベース', 5)

('発達障害', 4)

('営業マン', 4)

('被害者', 4)

('JavaScript', 4)

('加害者', 4)

('レビュー', 4)

('ユーザー', 4)

('OK', 4)

('Excel', 4)

('Mac', 4)

('CM', 4)

('ポイント', 4)

('コンテンツ', 4)

('時系列', 4)

('振り返り', 4)

('アフィリエイト', 4)

('パソコン', 4)

('ディープラーニング', 4)

 

 

・・・省略・・・

 

 

('この先生きのこるには', 1)

('Cookpad', 1)

('会社設立', 1)

('必要性', 1)

('ダイアトニック', 1)

('受信料', 1)

('LINEBot', 1)

 

 

はい。

ごめんなさい、タイトルと内容は全く関係ないものです。

この記事の本当のタイトルは

「今、はてなブックマーク数を稼ぎやすいブログのタイトルは?

あたりになるでしょうか。

 

上のタプルの羅列は

今週のはてなブログランキング〔2018年2月第2週〕 - 週刊はてなブログ

から約1年間分(2017年3月第2週分まで)をだーっと遡って頻出語をスクレイピングしたものです。

このうち上位7つを適当に繋げ合わせてそれっぽいタイトルにしてみました。

これやる前は、もっと面白いタイトルになるんじゃないかとワクワクしていたのですが、なんかそれっぽいタイトルになっちゃってがっかり。

 

やっぱり、人工知能ブームなんですねぇ

Pythonだけプログラミング言語の中で突出して出現率が高いようです。

今回のスクレイピングもゴリゴリPythonを使っております。

ざっくり今回用いた方法を書くと、

Scrapy を使って、週刊はてなブログのブクマ数ランキングのページをスタートページにして、再帰的に週ごとのページをクローリングしてタイトルを取得。

その後、ipadic-neologd でブーストしたmecab を使って形態素解析

正規表現使って記号とか飛ばしたり、あまり意味のない3文字以下のひらがな・カタカナや漢字2字以下のものを吹っ飛ばしたり、名詞と動詞以外の品詞を削ぎ落としたり・・・などなどの調整を行い

最後に出現頻度でソートして完成です。

ちなみに、こちらの本を参考に作業を行いました。

 

 ※なお、私はプログラミングに関してズブの素人さんですので、本職の方から見たら大変イケてない方法を使ってるかもですが、大目に見てやってください。

 

 おまけ

f:id:pypytestes:20180217221745p:plain

 

word clouds in Python — wordcloud 1.3 documentation

こちらのライブラリを使って、単語の出現頻度を可視化(Word Cloud化)してみました。

一枚絵でパッと見れるとなんかいい感じですね。

後日、気が向いたら今回の作業の詳しいやり方について加筆するかもです。