Das Modell sagt "Gehen": Wie Oberflächenheuristiken implizite Einschränkungen in der KI-Reasoning überlagern

Zusammenfassung

Große Sprachmodelle versagen systematisch, wenn ein auffälliger Oberflächenhinweis mit einer nicht genannten Durchführbarkeitsbedingung in Konflikt steht. Wir untersuchen dies anhand eines Diagnose-Messen-Überbrücken-Behandeln-Frameworks. Eine kausal-behaviorale Analyse des „Autowaschproblems“ über sechs Modelle hinweg zeigt annähernd kontextunabhängige sigmoide Heuristiken: Der Entfernungshinweis übt einen 8,7- bis 38-fach stärkeren Einfluss aus als das Ziel, und Token-basierte Attribuierung zeigt Muster, die eher mit Schlüsselwortassoziationen als mit kompositionaler Inferenz übereinstimmen. Der Heuristic Override Benchmark (HOB) – 500 Instanzen, die 4 Heuristiken über 5 Bedingungsfamilien mit Minimalpaaren und Explizitheitsgradienten abdecken – demonstriert die Allgemeingültigkeit über 14 Modelle hinweg: Unter strenger Auswertung (10/10 korrekt) überschreitet kein Modell 75 %, und Präsenzbedingungen sind am schwierigsten (44 %). Ein minimaler Hinweis (z.B. die Betonung des Schlüsselobjekts) führt im Durchschnitt zu einer Verbesserung von +15 Prozentpunkten, was darauf hindeutet, dass das Versagen in der Bedingungsinferenz und nicht in fehlendem Wissen liegt; 12/14 Modelle schneiden schlechter ab, wenn die Bedingung entfernt wird (bis zu -39 pp), was eine konservative Verzerrung offenbart. Parametrische Sonden bestätigen, dass das sigmoide Muster auf Kosten-, Effizienz- und semantische-Ähnlichkeits-Heuristiken verallgemeinert werden kann; Ziel-Zerlegungs-Prompting verbessert die Leistung um +6 bis 9 pp, indem es Modelle zwingt, Vorbedingungen aufzuzählen, bevor sie antworten. Zusammengenommen charakterisieren diese Ergebnisse Heuristik-Override als eine systematische Schwachstelle im Reasoning und liefern einen Benchmark, um Fortschritte zu dessen Behebung zu messen.

English

Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.

Das Modell sagt "Gehen": Wie Oberflächenheuristiken implizite Einschränkungen in der KI-Reasoning überlagern

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Zusammenfassung

Support