LLMの短答と長文回答における事実的(不)整合性の奇妙な事例
The Curious Case of Factual (Mis)Alignment between LLMs' Short- and Long-Form Answers
October 13, 2025
著者: Saad Obaid ul Islam, Anne Lauscher, Goran Glavaš
cs.AI
要旨
大規模言語モデル(LLM)は「アインシュタインはいつ生まれたか?」という質問には正しく答えられるが、アインシュタインの生涯について書く際には同じ日付を提供できないことがあり、タスクの複雑さに応じてモデルが事実知識にアクセスする方法に根本的な不整合が存在することを明らかにしています。モデルは事実質問応答ベンチマークで印象的な精度を示す一方で、単純なクエリと複雑なクエリの間の信頼性のギャップは十分に理解されておらず、その信頼性を損なっています。本研究では、Short-Long Form Alignment for Factual Question Answering(SLAQ)を導入し、LLMが同じ事実質問に対して(a)単独で(短い形式)と(b)複雑なクエリに統合された形(長い形式)で答える場合を比較する制御された評価フレームワークを提案します。16のLLMと600のクエリを対象に調査した結果、短いクエリと長いクエリに対する回答の間に系統的な不一致が見られました。さらに、位置依存的な精度の低下や、連続した正解または不正解が自己強化パターンを生み出すモメンタム効果も明らかになりました。メカニズム分析を通じて、整合した事実はモデルの内部構造の重複部分を活性化し、メカニズムの類似性に基づく指標が短い形式と長い形式の回答の整合性を最大78%の精度で予測できることがわかりました。本研究は、クエリの複雑さにわたる事実の一貫性をLLMの信頼性の重要な側面として確立し、単純な事実質問での良好な性能がより複雑な知識探索タスクでの信頼性も意味すると暗黙的に仮定する現在の評価手法に疑問を投げかけます。
English
Large language models (LLMs) can correctly answer "When was Einstein born?"
yet fail to provide the same date when writing about Einstein's life revealing
a fundamental inconsistency in how models access factual knowledge across task
complexities. While models display impressive accuracy on factual
question-answering benchmarks, the reliability gap between simple and complex
queries remains poorly understood, eroding their trustworthiness. In this work,
we introduce Short-Long Form Alignment for Factual Question Answering (SLAQ), a
controlled evaluation framework that compares LLMs' answers to the same factual
questions asked (a) in isolation (short) vs. (b) integrated into complex
queries (long). Looking at 16 LLMs across 600 queries, we find a systematic
misalignment of answers to the corresponding short and long queries. We further
uncover position-dependent accuracy loss and momentum effects where consecutive
correct or incorrect answers create self-reinforcing patterns. Through
mechanistic analysis, we find that aligned facts activate overlapping model
internals, and that metrics based on mechanistic similarity can predict
short-long answer alignment with up to 78% accuracy. Our work establishes
factual consistency over query complexity as an important aspect of LLMs'
trustworthiness and challenges current evaluation practices, which implicitly
assume that good performance for simple factual queries implies reliability in
more complex knowledge-seeking tasks too.