ChatPaper.aiChatPaper

モデルは歩行を指示する:LLM推論における暗黙的制約を上回る表面的ヒューリスティック

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

March 30, 2026
著者: Yubo Li, Lu Zhang, Tianchong Jiang, Ramayya Krishnan, Rema Padman
cs.AI

要旨

大規模言語モデルは、顕著な表面的手がかりと明示されていない実行可能性制約が矛盾する場合に、体系的な失敗を起こす。本研究ではこの問題を「診断・測定・架橋・処置」の枠組みを通じて検討する。「洗車問題」に対する6つのモデルでの因果的行動分析から、ほぼ文脈非依存的なシグモイドヒューリスティックが明らかとなった:距離の手がかりは目的に対して8.7倍から38倍の影響力を有し、トークンレベルの帰属分析は合成的推論よりもキーワード連想に整合的なパターンを示した。ヒューリスティックオーバーライドベンチマーク(HOB)――4種類のヒューリスティックと5つの制約ファミリーに跨る500事例を最小ペアと明示性勾配で包含――は14モデルにわたる一般性を実証した:厳密な評価(10問中10問正解)では、いずれのモデルも75%を超えず、存在制約が最も困難であった(44%)。最小限のヒント(例:主要オブジェクトの強調)は平均+15パーセントポイントの回復を示し、失敗の原因が知識不足ではなく制約推論にあることを示唆する。12/14のモデルは制約を除去すると性能悪化(最大-39パーセントポイント)を示し、保守的バイアスを明らかにした。パラメトリックプローブは、シグモイドパターンがコスト、効率性、意味的類似性のヒューリスティックに一般化することを確認し、目的分解プロンプトはモデルに回答前の前提条件列挙を強制することで+6~9パーセントポイントの回復をもたらした。総合して、これらの結果はヒューリスティックオーバーライドを体系的な推論の脆弱性として特徴付け、その解決に向けた進歩を測定するベンチマークを提供する。
English
Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.
PDF51April 2, 2026