Il Modello Dice Cammina: Come le Euristiche di Superficie Sovrascrivono i Vincoli Impliciti nel Ragionamento degli LLM

Abstract

I grandi modelli linguistici falliscono sistematicamente quando un indizio superficiale saliente entra in conflitto con un vincolo di fattibilità non dichiarato. Studiamo questo fenomeno attraverso un framework diagnostica-misura-ponte-trattamento. L'analisi causale-comportamentale del "problema del lavaggio auto" su sei modelli rivela euristiche sigmoidali approssimativamente indipendenti dal contesto: l'indizio della distanza esercita un'influenza da 8,7 a 38 volte maggiore rispetto all'obiettivo, e l'attribuzione a livello di token mostra pattern più coerenti con associazioni di parole chiave che con inferenze composizionali. L'Heuristic Override Benchmark (HOB) – 500 istanze che abbracciano 4 famiglie di euristiche per 5 famiglie di vincoli con coppie minime e gradienti di esplicitazione – dimostra la generalità su 14 modelli: sotto valutazione rigorosa (10/10 corrette), nessun modello supera il 75%, e i vincoli di presenza sono i più difficili (44%). Un suggerimento minimo (ad esempio, enfatizzare l'oggetto chiave) recupera in media +15 punti percentuali, suggerendo che il fallimento risieda nell'inferenza del vincolo piuttosto che nella mancanza di conoscenza; 12/14 modelli performano peggio quando il vincolo viene rimosso (fino a -39 pp), rivelando un bias conservativo. Le sonde parametriche confermano che il pattern sigmoidale si generalizza a euristiche di costo, efficienza e similarità semantica; il prompting con scomposizione dell'obiettivo recupera da +6 a 9 pp costringendo i modelli a enumerare i prerequisiti prima di rispondere. Nel complesso, questi risultati caratterizzano l'override euristico come una vulnerabilità sistematica del ragionamento e forniscono un benchmark per misurare i progressi verso la sua risoluzione.

English

Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.

Il Modello Dice Cammina: Come le Euristiche di Superficie Sovrascrivono i Vincoli Impliciti nel Ragionamento degli LLM

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Abstract

Support