亀岡的プログラマ日記

京都のベッドタウン、亀岡よりだらだらとお送りいたします。

Google 日本語入力 導入しました。

それは兎も角。

ユーザーが「かな」をどういう文脈の時にどういう漢字に変換するかという膨大な統計データを使うということはすばらしいと思うのだけど、そこでユーザーが入力したかな文字列と変換後の漢字文字列のセットは、実はユーザーが使っているかな漢字変換機能の辞書が吐き出したものなんですね。つまり、ユーザーを介して、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるわけですわ。

確かに、これは的を得た指摘。

まあIPOで言うところのIとOを得られたている状態でいかにPをぶっこ抜けるかという話なんだが。
データの収集とアルゴリズム、どっちが大変そうかって考えると、多分前者な気がするんだよなあ。少なくともコスト的には。

辞書データをぶっこ抜かれたかな漢字変換の開発会社の中には、いや、よしんば、ぶっこ抜いていなかったとしても、このかな漢字変換の売上やライセンス料で一生懸命生きているような会社もあるわけで、できあがったモノをタダでばらまかれたりして市場を破壊されちゃうと、一気に路頭に迷う人たちが出てくる可能性も十分に考えられると思うのです。誰とは言わないけれど。

阿波徳島ですよね。