Het model zegt loop: Hoe oppervlakkige vuistregels impliciete beperkingen overstemmen in redeneren van grote taalmodellen

Samenvatting

Grote taalmodellen falen systematisch wanneer een opvallende oppervlakte-aanwijzing botst met een onuitgesproken haalbaarheidsbeperking. Wij onderzoeken dit via een diagnoseer-meet-overbrug-behandel raamwerk. Causaal-gedragsanalyses van het "carwash-probleem" bij zes modellen onthullen ongeveer context-onafhankelijke sigmoïde heuristieken: de afstandsaanwijzing heeft 8,7 tot 38 keer meer invloed dan het doel, en token-level attributie toont patronen die meer consistent zijn met trefwoordassociaties dan met compositionele inferentie. De Heuristic Override Benchmark (HOB) – 500 instanties verspreid over 4 heuristiek- en 5 beperkingsfamilies met minimale paren en gradaties van explicietheid – toont de algemene geldigheid aan bij 14 modellen: onder strikte evaluatie (10/10 correct) haalt geen enkel model meer dan 75%, en aanwezigheidsbeperkingen zijn het moeilijkst (44%). Een minimale hint (bijvoorbeeld door het sleutelobject te benadrukken) levert gemiddeld +15 procentpunt herstel, wat suggereert dat de fout ligt in het afleiden van de beperking en niet in ontbrekende kennis; 12 van de 14 modellen presteren slechter wanneer de beperking wordt verwijderd (tot -39 pp), wat een conservatieve bias onthult. Parametrische probes bevestigen dat het sigmoïde patroon generaliseert naar kosten-, efficiëntie- en semantische-gelijkenisheuristieken; prompting met doel-decompositie herstelt +6 tot 9 pp door modellen te dwingen precondities op te sommen voor het antwoorden. Samen karakteriseren deze resultaten heuristische override als een systematische kwetsbaarheid in redeneren en bieden ze een benchmark om vooruitgang in het oplossen ervan te meten.

English

Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.

Het model zegt loop: Hoe oppervlakkige vuistregels impliciete beperkingen overstemmen in redeneren van grote taalmodellen

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Samenvatting

Support