모델은 걷기라고 말한다: 표면적 휴리스틱이 LLM 추론의 내재적 제약을 어떻게 우선시하는가
The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning
March 30, 2026
저자: Yubo Li, Lu Zhang, Tianchong Jiang, Ramayya Krishnan, Rema Padman
cs.AI
초록
대규모 언어 모델은 두드러진 표면적 단서가 명시되지 않은 실현 가능성 제약과 상충될 때 체계적으로 실패한다. 우리는 이를 진단-측정-연결-처치(diagnose-measure-bridge-treat) 프레임워크를 통해 연구한다. 6개 모델에 걸친 "세차 문제(car wash problem)"에 대한 인과-행동 분석은 맥락에 거의 독립적인 시그모이드 휴리스틱을 보여준다: 거리 단서는 목표보다 8.7배에서 38배 더 큰 영향을 미치며, 토큰 수준 귀속 분석은 구성적 추론보다는 키워드 연관과 더 일관된 패턴을 보인다. 휴리스틱 오버라이드 벤치마크(HOB)는 4가지 휴리스틱과 5가지 제약 패밀리에 걸친 500개 인스턴스, 최소 쌍 및 명시성 경사도를 포함하며, 14개 모델에 걸쳐 일반성을 입증한다: 엄격한 평가(10/10 정답) 하에서 어떤 모델도 75%를 넘지 않으며, 존재 제약이 가장 어려웠다(44%). 최소한의 힌트(예: 핵심 객체 강조)는 평균 +15%p의 성능 회복을 보여, 실패 원인이 결여된 지식보다는 제약 조건 추론에 있음을 시사한다; 14개 모델 중 12개는 제약 조건이 제거될 때 최대 -39%p까지 성능이 저하되어 보수적 편향을 드러낸다. 매개변수 프로브는 시그모이드 패턴이 비용, 효율성, 의미적 유사성 휴리스틱으로 일반화됨을 확인한다; 목표 분해 프롬프팅은 모델이 답변 전 전제 조건을 열거하도록 강제하여 +6~9%p의 성능을 회복시킨다. 종합적으로, 이러한 결과는 휴리스틱 오버라이드를 체계적인 추론 취약점으로 규명하고, 이를 해결하기 위한 진전을 측정할 벤치마크를 제공한다.
English
Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.