小さなごちそう

プロダクトマネジメントや日々の徒然について

「TechCrunchによく出る英単語集」を作ってみた

TechCrunch本家サイトでよく使われる英単語集を作ってみた。

まずは単純に過去1年分の記事をクローリングして、単語に分割して出現頻度順にソートしてみた。

当然のことながら"this"とか"apple"のような基礎的な英単語が上位に出現してしまう。また、基礎単語以外でも一般のニュースサイトでも頻出しそうな単語も多く含まれ、ノイズ(テック系やスタートアップ系ならではの単語以外のもの)が多い。
このままだと上位500ワードを抽出してもTechCrunch固有の単語集にはならず、「TechCrunchによく出る英単語集」とは言いがたい。

そこで、下記のような手順で「ITっぽい英単語」を抽出した。

  1. 海外のIT用語集サイト*1でよく使われている英単語を抽出
  2. ここから中学・高校で習う英単語を除外
  3. 各単語のTechCrunch内での出現頻度を、td-idf法でスコアリング
  4. スコアでソートして、上位500件を「よく出る英単語集」として選出

単語の意味はGoogle Translate APIを使ってざっくり翻訳。あとは目検で修正した。
一部の単語は例文が入っている。こちらはTechCrunchの記事中で使われているような内容で、英語ネイティブ(日英バイリンガル)の人に作成してもらった。

こちら↓のアプリを使うと、この単語集をスマホで勉強できるのでぜひ見てみて欲しい。 

 アプリをインストールした後にスマホでこちらのページを開き、「この暗記帳をアプリで開く」をタップするとアプリ内でこの英単語集を表示できる。

f:id:tannomizuki:20150113195806p:plain

TOEICなどの頻出単語とはまた違う、IT系固有の英単語の学習に役に立てば嬉しい。

【追記】続きを書きました↓


 *1 IT用語集の例

http://www.gartner.com/it-glossary/
http://whatis.techtarget.com/
http://www.consp.com/it-information-technology-terminology-dictionary