Schi Heil と叫ぶために

hiroakiuno's blog

Googleニュースって本当に全自動?

ご存知Googleニュースとは様々なニュースサイトから記事を集めて分類し、一つのポータルサイトのようにまとめたWebページである。ニュース記事という質の高いコンテンツに絞って検索ができたり、分類や見た目をカスタマイズできるという点が気に入り毎日利用している。個々のニュースはカテゴリ毎に「見出し」と数行の内容で整理されており、通常のGoogle検索とよく似たデザインである。http://news.google.co.jp/intl/ja_jp/about_google_news.htmlによると基本的にはこの編集に人の手を介していないそうだ。

さすがはGoogleというところだが、以前からこの「見出し」を自動で付けるということに対して、テキスト自動要約というパターン認識的な意味で、技術的にどうやって行っているのか非常に気になっていた。基本的には、対象がニュースサイトに限定されているという特徴上、コンテンツ自体に適切な見出しが付いていることが多く、HTMLのタグ等をヒントにそれを抽出すればいいのだろうが(それでも対象とするニュース記事のフォーマットは当然ばらばらであり与えられた問題は難しい)、まれにタイトルが何処にあるのか分からないような記事に対してもGoogleニュースは何らかの的確な見出しを付けている。

http://d.hatena.ne.jp/images/diary/h/hiroakiuno/2006-04-20.jpg

で、今日たまたま見つけた見出しが上のキャプチャー画像。(2006/4/20 21:45現在Googleニュース日本語版で「知能」で検索するとまだ出てくる。)

おや、人工知能が人口知能になっているではないか。

どうせ記事自体が間違っているんだろうと思い、リンク先の日経新聞記事を見てみたが、人口という単語は見当たらない。コンピュータが間違えた?確かに現状のパターン認識技術において誤りがゼロという完璧な技術は存在しないが、誤る場合typoのような人間らしい「賢い」誤りをすることは無い。一方、日経の記事が間違っていてGoogleがクローリングした後に、修正したということは十分考えられる。しかしtypoと考える方が妥当じゃないだろうか?とすると見出しは人が付けている?

基本的にコンピュータが自動で付加し、それを人手で最終チェックしておかしなものはGoogleの社員が手で直す、今回はそこでtypoしたと考えるのが自然だろう。でもそれだととても手に負えないような気もするしgoogleだし…。どうなんでしょうか?