AI開発のONTOLOGIK社は、テキストを読み取り、ナレッジ グラフを自動的に構築/フィードし、その後、このナレッジ リポジトリに対する質問に答える対話に参加できる自然言語理解エンジンを開発しています。
ONTOLOGIK.AI のプリンシパル AI サイエンティスト、ワリド・サバ博士のブログをシンプルに要約してご紹介します。
PhD, Walid. Why Commonsense Knowledge Is Not (and Can Not Be) Learned | by Walid Saba, PhD | ONTOLOGIK | Aug, 2022 | Medium. 29 Aug. 2022, https://medium.com/ontologik/why-commonsense-knowledge-is-not-and-can-not-be-learned-c0a0ea5f46cf.
コモンセンス(背景)知識、少なくとも私たちが言語を理解するために使うような知識は、多くの文章を読んでも学ぶことはできません。その知識は決して文章の中で明示されておらず、そこにないものを見つけることはできないからです。
また、物事を観察して学ぶこともできません。
なぜなら、重要な背景知識のほとんどは普遍的なものであり、確率的なものではないためです。
言語を理解するために必要な共有の背景知識は、自然の法則に従って尊重される種類の知識なので、書き記す必要があるのです。実はこの知識は、ある存在論的な型の変数に対して数量化する記号体系で書き下す必要があります。
常識的な知識は学ばない 1 — テキストには載っていない
人間が言語を通じてどのようにコミュニケーションするかについて、神経学的、心理学的、進化的な側面から研究している研究者たちは、言語が情報理論的な最小努力の原則に基づいて変化してきたという点で意見が一致しています。
特に、相互作用するコミュニケーション・エージェントは、(話し手が)思考をコード化する複雑さと(聞き手が)言語的発話を意図した思考に戻す復号化の複雑さを最小にする発話を生成する傾向があることが示されている[1]、したがって話し手と聞き手の両方の努力が最小となる最適点を見つけることができます。
話し手と聞き手の双方が楽になるように、最適化の過程で、ある種の言語圧縮が行われるようになったのです。これは、言語に曖昧さを加えることで、話し手がすべての詳細を説明する必要がないようにするものです。
その代わり、話し手は聞き手がすでに知っていると考えて差し支えない情報は省きます。この枠組みでは、話し手と聞き手が多くの背景知識を共有している場合に、言語コミュニケーションがうまく機能します[2]。
つまり、言語コミュニケーションにおいて「背景知識の共有」が表明されることは、ほとんどないのです。他に理由がないとすれば、その情報は話し手と聞き手の両方がすでに知っているため、送るのは時間の無駄だからです。
しかし、自然言語によくある曖昧さが効率的な圧縮に必要であることが示される一方で、機械は「共有背景知識」がわからないため、曖昧さに対処するのが難しいことも示されています。この共有背景知識はテキストにはないので、この背景(常識)知識をテキストから引き出そうとするような研究プロジェクトが見られるのは不思議です(例えば、[3]を参照)。
この種の背景 (常識) 知識がテキストではない理由を示すために、(1) と (2) の文を考えてみましょう。
(1)ジョンは家のすべての部屋にギリシャの彫像を置いています。
(2)ジョンは、家族がトロントの近くで交通事故に遭ったときに足を骨折しました。
4歳児は、(1)の「ギリシャの像」が複数の像を指していることを知っている。ギリシャの像のような物理的アーティファクトを複数の場所に置くことはできないからです。
NLUの用語では、(1)の難しさは通常、量詞の範囲のあいまいさを解決することにある。同じように、小さな出来事の場所は常に大きな出来事の場所と同じなので、4歳児は(2)を聞いただけでジョンがどこで足を折ったか分かりました。
これを示したのが下の図1である。(2)の課題は、文章がこのロジックを直接言うことはないので、何が起こっているのかの常識的なロジックを把握することです。

図 1.
(a) (1) の文を正しく理解するために必要な背景知識。
(b) (2)の文を正しく理解するために必要な背景知識。これらの事実とルールは、異なるオントロジー カテゴリのオブジェクトでわずかに異なる可能性があるため、この背景知識を表現および表現するには、特定のオントロジー タイプの変数を定量化する記号論理が必要であることに注意してください。
結論から言うと、このような背景知識の共有は、言語コミュニケーションにおいて常に暗黙のうちに想定されているため、明示されることはなく、多くの文章を読むことで得ようとすることは、存在しないものを探すようなものです。
常識的な知識は学ばない 2 — 知覚できない
また、人間の情報の大部分は、時間をかけて環境を知覚的にモニターし、そのモデルを構築することによって「学習」される可能性があると主張する者もいます。
その前提は、我々が集合的な「背景知識」と呼ぶものも、観察を通じて統計的かつ知覚的に獲得されるかもしれないということです(これは例えば[4]で提案されている意見である)。これは残念なことで、高度な推論を必要とするタスク(計画や言語理解など)において暗黙のうちに想定される膨大な量の「背景知識」は近似できず、人によって異なる学習ができず、したがって個人の観察の対象にはなり得ないからです。
言語コミュニケーションにおいて、話し手が符号化したメッセージに含まれず省かれた情報量は、聞き手がメッセージを解読し、その過程でうまく曖昧さを解消するために、話し手が持っていると想定できる背景知識と同じでなければなりません。
これは、話し手と聞き手の労力を最小限に抑えるために、効率的な圧縮を行うために必要なことである。これは、共通の背景情報に大きく依存しているため、その共有された背景知識が異なっていた場合、プロセス全体が失敗してしまうのです。
先行情報(図1)は「近似」ではなく、異なるものにはなり得ないので、個々に知覚的に学習することはできない —学習可能性理論では、認知エージェントが無限の時間を持たない限り、こうした普遍的に正しい認知テンプレートの学習は禁じられる—。
最後の言葉
ここで重要な問題 (読者が上記の議論を受け入れたと仮定して) は次のとおりです。この「共有された背景知識」の性質は何か、それはどれほど広大であり、どのように体系化できるでしょうか。今後の投稿でこの質問に戻ります。
参考文献
- Fortuny, J., Corominas-Murtra, B. (2013), On the origin of ambiguity in efficient communication, Journal of Logic, Language and Information volume 22, pages 249–267. (available on the arxiv here)
2. Bao, J., et. al. (2011), Towards a theory of semantic communication, 2011 In IEEE Network Science Workshop.
3. One Man’s Dream of Fusing A.I. With Common Sense, New York Times, August 28, 2022 (here)
4. Browning, Jacob and LeCun, Yann (2022), AI And The Limits Of Language, NOEMA, August 23, 2022.