LLMの肩に止まる確率的なオウム:物理的概念理解の総括評価The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of
Physical Concept Understanding
体系的な方法で、よくある質問である「LLMは本当に自分が言っていることを理解しているのか?」について調査します。これは、より馴染みのある用語である「確率的オウム」と関連しています。このために、私たちは慎重に設計された物理概念理解タスクPhysiCoに対する総合的な評価を提案します。私たちのタスクは、物理現象を抽象的に記述するグリッド形式の入力を使用することで、記憶の問題を緩和します。グリッドは、核となる現象、応用例、グリッドワールド内の他の抽象的なパターンへの類推など、さまざまな理解レベルを表しています。私たちのタスクに関する包括的な研究は次のことを示しています:(1)GPT-4o、o1、Gemini 2.0フラッシュ思考などの最先端のLLMは、人間よりも約40%遅れています;(2)確率的オウム現象はLLMに存在し、彼らは私たちのグリッドタスクで失敗しますが、自然言語で同じ概念をうまく説明し認識できます;(3)私たちのタスクは、LLMにとって未知のグリッド形式ではなく、固有の難しさによって挑戦を与えます。なぜなら、文脈に即した学習や同じフォーマットのデータでの微調整は、彼らのパフォーマンスにほとんど影響を与えなかったからです。