「TechCrunchによく出る英単語集」を作ってみた
TechCrunch本家サイトでよく使われる英単語集を作ってみた。
まずは単純に過去1年分の記事をクローリングして、単語に分割して出現頻度順にソートしてみた。
当然のことながら"this"とか"apple"のような基礎的な英単語が上位に出現してしまう。また、基礎単語以外でも一般のニュースサイトでも頻出しそうな単語も多く含まれ、ノイズ(テック系やスタートアップ系ならではの単語以外のもの)が多い。
このままだと上位500ワードを抽出してもTechCrunch固有の単語集にはならず、「TechCrunchによく出る英単語集」とは言いがたい。
そこで、下記のような手順で「ITっぽい英単語」を抽出した。
- 海外のIT用語集サイト*1でよく使われている英単語を抽出
- ここから中学・高校で習う英単語を除外
- 各単語のTechCrunch内での出現頻度を、td-idf法でスコアリング
- スコアでソートして、上位500件を「よく出る英単語集」として選出
単語の意味はGoogle Translate APIを使ってざっくり翻訳。あとは目検で修正した。
一部の単語は例文が入っている。こちらはTechCrunchの記事中で使われているような内容で、英語ネイティブ(日英バイリンガル)の人に作成してもらった。
こちら↓のアプリを使うと、この単語集をスマホで勉強できるのでぜひ見てみて欲しい。
アプリをインストールした後にスマホでこちらのページを開き、「この暗記帳をアプリで開く」をタップするとアプリ内でこの英単語集を表示できる。
TOEICなどの頻出単語とはまた違う、IT系固有の英単語の学習に役に立てば嬉しい。
【追記】続きを書きました↓
*1 IT用語集の例
http://www.gartner.com/it-glossary/
http://whatis.techtarget.com/
http://www.consp.com/it-information-technology-terminology-dictionary