11/23/2011

Google Ngram Viewer



Googleのサービスの中で、Google Ngram Viewerというものがあります。

※リンク


Googleは世界中の本をデジタル化してしまおうというミッションを持っており、日頃からサクサクと本をスキャンしているそうです。現在のところ、約1500万冊の本がスキャンされているようです。このスキャンしたデータをハーバード大学の研究シームがチョイスし、選ばれた良書と思われる書籍を約500万冊をデータベースに開発しました。そのデータベースこそがGoogle Ngram Viewerです、語数にして5000億語程でしょうか。このデータベースを使って一体何が出来るのか、気になるところです。







上の表について見てみます。例えば、【war】というワードを検索すると、世界大戦が起きた時期は非常に高頻度で【war】という言葉が使われていることがわかります。







【hope】というワードを検索すると、1500年~2000年の間に出版された500万冊の書籍の中にどれ位の頻度で【hope】という言葉が使われたかが一目でわかります。ここから考えられることは、昔の人の方が希望を強く望んでいるのではないかと読み取れます。しかし、19世紀半ばからは右肩下がりになっています。何となくではありますが、一つ前の例の【war】のグラフが上がったすぐ後に【hope】の使用頻度が上がっているように見えます。戦争に対してその後の希望を熱望する風潮があったのではないかということが考えられます。しかし、戦争に関する情報の頻度が高い状況が続くことで、希望を持つことを控えているのかなといったことも考えられます。
※とはいえ、世界経済のことなども考えると、【hope】のワード使用頻度が下がるのも頷けます。






【future】というワードを検索すると、時代が経過するにつれて使用頻度が増加しています。利便性が追求された生活では、様々な部分で余裕が出てきます。余裕が出てくることで未来を見るようです。また、1600年や1700年に直後にグラフが伸びているのを見ると、いつの時代でも節目の年というのは未来を想像するのだろうと思います。


このように、なかなか面白いデーターベースであり、様々なワードが時代を表しています。英語以外にも、フランス語、スペイン語ドイツ語、ロシア語、中国語、ヘブライ語での検索が可能です。検索の対象期間も1500年~2000年の間であれば時期を絞って検索することもできます。もしかしたら流行や風潮の新たな法則が見つかるかもしれません。読者の方もいろいろな言葉を検索してみてください。

0 件のコメント:

コメントを投稿