Le modèle dit de marcher : comment les heuristiques de surface supplantent les contraintes implicites dans le raisonnement des LLM

Résumé

Les grands modèles de langage échouent systématiquement lorsqu'un indice de surface saillant entre en conflit avec une contrainte de faisabilité non énoncée. Nous étudions ce phénomène à travers un cadre diagnostiquer-mesurer-pont-traiter. L'analyse causale-comportementale du « problème du lavage de voiture » sur six modèles révèle des heuristiques sigmoïdes quasi indépendantes du contexte : l'indice de distance exerce une influence 8,7 à 38 fois supérieure à celle du but, et l'attribution au niveau des tokens montre des motifs plus cohérents avec des associations de mots-clés qu'avec une inférence compositionnelle. Le benchmark Heuristic Override (HOB) – 500 instances couvrant 4 familles d'heuristiques par 5 familles de contraintes avec des paires minimales et des gradients d'explicitation – démontre la généralité sur 14 modèles : sous évaluation stricte (10/10 corrects), aucun modèle ne dépasse 75 %, et les contraintes de présence sont les plus difficiles (44 %). Un indice minimal (par exemple, souligner l'objet clé) permet un gain moyen de +15 points de pourcentage, suggérant que l'échec réside dans l'inférence de la contrainte plutôt que dans un manque de connaissances ; 12 modèles sur 14 performent moins bien lorsque la contrainte est supprimée (jusqu'à -39 pp), révélant un biais conservateur. Des sondes paramétriques confirment que le motif sigmoïde se généralise aux heuristiques de coût, d'efficacité et de similarité sémantique ; l'incitation par décomposition du but permet un gain de +6 à 9 pp en forçant les modèles à énumérer les préconditions avant de répondre. Ensemble, ces résultats caractérisent le dépassement heuristique comme une vulnérabilité systématique du raisonnement et fournissent un benchmark pour mesurer les progrès vers sa résolution.

English

Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.

Le modèle dit de marcher : comment les heuristiques de surface supplantent les contraintes implicites dans le raisonnement des LLM

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Résumé

Support