ChatPaper.aiChatPaper

Das Modell sagt "Gehen": Wie Oberflächenheuristiken implizite Einschränkungen in der KI-Reasoning überlagern

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

March 30, 2026
Autoren: Yubo Li, Lu Zhang, Tianchong Jiang, Ramayya Krishnan, Rema Padman
cs.AI

Zusammenfassung

Große Sprachmodelle versagen systematisch, wenn ein auffälliger Oberflächenhinweis mit einer nicht genannten Durchführbarkeitsbedingung in Konflikt steht. Wir untersuchen dies anhand eines Diagnose-Messen-Überbrücken-Behandeln-Frameworks. Eine kausal-behaviorale Analyse des „Autowaschproblems“ über sechs Modelle hinweg zeigt annähernd kontextunabhängige sigmoide Heuristiken: Der Entfernungshinweis übt einen 8,7- bis 38-fach stärkeren Einfluss aus als das Ziel, und Token-basierte Attribuierung zeigt Muster, die eher mit Schlüsselwortassoziationen als mit kompositionaler Inferenz übereinstimmen. Der Heuristic Override Benchmark (HOB) – 500 Instanzen, die 4 Heuristiken über 5 Bedingungsfamilien mit Minimalpaaren und Explizitheitsgradienten abdecken – demonstriert die Allgemeingültigkeit über 14 Modelle hinweg: Unter strenger Auswertung (10/10 korrekt) überschreitet kein Modell 75 %, und Präsenzbedingungen sind am schwierigsten (44 %). Ein minimaler Hinweis (z.B. die Betonung des Schlüsselobjekts) führt im Durchschnitt zu einer Verbesserung von +15 Prozentpunkten, was darauf hindeutet, dass das Versagen in der Bedingungsinferenz und nicht in fehlendem Wissen liegt; 12/14 Modelle schneiden schlechter ab, wenn die Bedingung entfernt wird (bis zu -39 pp), was eine konservative Verzerrung offenbart. Parametrische Sonden bestätigen, dass das sigmoide Muster auf Kosten-, Effizienz- und semantische-Ähnlichkeits-Heuristiken verallgemeinert werden kann; Ziel-Zerlegungs-Prompting verbessert die Leistung um +6 bis 9 pp, indem es Modelle zwingt, Vorbedingungen aufzuzählen, bevor sie antworten. Zusammengenommen charakterisieren diese Ergebnisse Heuristik-Override als eine systematische Schwachstelle im Reasoning und liefern einen Benchmark, um Fortschritte zu dessen Behebung zu messen.
English
Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.
PDF51April 2, 2026