ChatPaper.aiChatPaper

空の棚か、失われた鍵か?パラメトリックな事実性における回収がボトルネック

Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

February 15, 2026
著者: Nitay Calderon, Eyal Ben-David, Zorik Gekhman, Eran Ofek, Gal Yona
cs.AI

要旨

大規模言語モデル(LLM)の標準的な事実性評価では、すべての誤りを同等に扱うため、失敗が知識の欠如(空の棚)によるものなのか、符号化された事実へのアクセス制限(失われた鍵)によるものなのかが不明確になっています。本研究では、質問レベルではなく事実レベルで知識のプロファイリングを行う行動論的フレームワークを提案します。各事実について、まず符号化の有無を特徴付け、次にそのアクセシビリティ(想起不可能、直接想起可能、推論時の計算(思考)によるみ想起可能)を評価します。このようなプロファイリングを支援するため、ウェブ検索に基づいたLLMを用いた自動パイプラインで構築された新しいベンチマーク「WikiProfile」を導入します。13種類のLLMから得られた400万件の応答を分析した結果、最先端モデル(GPT-5およびGemini-3)では当ベンチマークにおける事実の符号化率が95~98%とほぼ飽和していることが明らかになりました。しかし、想起は依然として主要なボトルネックであり、従来は知識不足に帰因されていた誤りの多くが、実際には符号化された知識へのアクセス失敗に起因することが分かりました。これらの失敗は系統的であり、特にロングテール事実や逆方向の質問において顕著に現れます。最後に、思考による想起の改善を示し、失敗の相当部分が回復可能であることを実証しました。これは今後の性能向上が、スケーリングよりも、モデルが既に符号化した知識を如何に効率的に活用するかという手法に依存する可能性を示唆しています。
English
Standard factuality evaluations of LLMs treat all errors alike, obscuring whether failures arise from missing knowledge (empty shelves) or from limited access to encoded facts (lost keys). We propose a behavioral framework that profiles factual knowledge at the level of facts rather than questions, characterizing each fact by whether it is encoded, and then by how accessible it is: cannot be recalled, can be directly recalled, or can only be recalled with inference-time computation (thinking). To support such profiling, we introduce WikiProfile, a new benchmark constructed via an automated pipeline with a prompted LLM grounded in web search. Across 4 million responses from 13 LLMs, we find that encoding is nearly saturated in frontier models on our benchmark, with GPT-5 and Gemini-3 encoding 95--98% of facts. However, recall remains a major bottleneck: many errors previously attributed to missing knowledge instead stem from failures to access it. These failures are systematic and disproportionately affect long-tail facts and reverse questions. Finally, we show that thinking improves recall and can recover a substantial fraction of failures, indicating that future gains may rely less on scaling and more on methods that improve how models utilize what they already encode.
PDF203March 28, 2026