02月
20

インターネット 慶應義塾大学理工学研究科 2009年02月20日


【プレスリリース概要】
ユーザー参加型の新しい日本語入力システム「Social IME ~みんなで育てる日本語入力~」の開発を行いました。従来の日本語入力は、オフラインのPCにインストールして1人で使うことを前提に設計されていました。それに対して、Social IMEではインターネットを用いたユーザー参加型のメリットを活かして変換を行うことができます。具体的には次のような特長があります。
1.多くのユーザーが単語を共有辞書に登録することで、普通では変換できない単語も変換可能
2.ユーザー間の共有だけでなくWeb全体の集合知を利用した予測変換により、入力効率が21%向上

【プレスリリース内容】
■1. 背景・目的
従来の日本語入力は、オフラインのPCにインストールして1人で使うことを前提に設計されていました。そのため、変換に用いる辞書や単語の使用頻度などのデータは基本的にインストールした時点のものがそのまま使われます。しかし、このような方式ではデフォルトの辞書に入っていない専門用語を変換できず、予測変換も困難という問題点がありました。一方で、近年インターネットの普及により、ユーザー参加型のWebアプリケーションが増えてきています。そこで私たちは、インターネットを用いたユーザー参加型の日本語入力を開発することで、従来の日本語入力の問題を解決しました。

■2. 単語辞書の共有
芸能人の名前や漫画の名前などには、従来の日本語入力システムでは変換できない単語が数多く存在しています。Social IMEでは、すべてのユーザーで登録された単語が共有されます。たくさんのユーザーが共有する辞書に単語を登録するため、変換できなかった単語を変換できるようになります。現在までにユーザーによる登録や辞書のインポートにより、54万語以上が変換できるようになりました。

例えば、図 2の左の表のような単語が変換できます。 このように登録された単語は、人名や作品名、キャラクター名、顔文字などを幅広くカバーしています。共有された辞書には既にいろいろな単語が登録されていますが、 まだ変換できない単語もあります。ユーザーは変換できない 単語を見つけたら、図 2の右側の単語登録画面を使って、単語を登録することができます。これにより次からはそのユーザーだけでなく、他のユーザーも登録された単語を変換できるようになります。

多くの人がこのように単語を登録すると、変換できる単語が増えていく。たとえていえばWikiPediaのように不特定多数が編集することで、 日本語入力の辞書が自律的に成長していくシステムなのです。

■3. 予測変換による入力効率のアップ
携帯電話のように、予測変換によって入力効率を向上させることができる機能を開発しました。 PC初心者を対象とした実験によると、Microsoft Office IME 2007と比べて入力時間が21%、キー操作が26%削減されました。

図 3に予測変換の例を示します。特に定型的な文章や、Web上でよく使われる単語などが効率よく入力できます。予測変換には、Webデータを用いた全く新しい変換エンジンを採用しています。

膨大なWebページの文章から単語の使用頻度などの統計量を抽出することで、よく使われる文章表現を予測変換の候補とすることができますつまりSocial IMEユーザーの中での共有だけではなく、Web全体から集合知の力を借りて変換に活かすことができます。

■4. 補足説明
本研究は2007年度に独立行政法人情報処理推進機構(IPA)の未踏ソフトウェア創造事業に採択され、支援を受けて行われました。予測変換機能はグーグル社の提供するWeb日本語Nグラム[1]を用いて学術目的で研究開発が行われました。
1) 工藤拓, 賀沢秀人:Web 日本語Nグラム第1版,言語資源協会発行(2007)


【プレスリリース連絡先】
WebサイトURL:http://www.social-ime.com/
プレスリリースURL:http://www.social-ime.com/release20090220

慶應義塾大学 理工学研究科 修士2年 奥野陽
TEL: 090-5753-5899
E-mail: okuno @ soft.ics.keio.ac.jp