O Modelo Diz para Andar: Como Heurísticas de Superfície Sobrepõem Restrições Implícitas no Raciocínio de LLMs

Resumo

Os grandes modelos de linguagem falham sistematicamente quando uma pista superficial saliente entra em conflito com uma restrição de viabilidade não declarada. Estudamos este fenômeno através de uma estrutura de diagnóstico-medição-ponte-tratamento. A análise causal-comportamental do "problema do lava-jato" em seis modelos revela heurísticas sigmoidais aproximadamente independentes do contexto: a pista de distância exerce de 8,7 a 38 vezes mais influência do que o objetivo, e a atribuição a nível de *token* mostra padrões mais consistentes com associações de palavras-chave do que com inferência composicional. O *Heuristic Override Benchmark* (HOB) – 500 instâncias abrangendo 4 famílias de heurísticas por 5 famílias de restrições com pares mínimos e gradientes de explicitação – demonstra a generalidade em 14 modelos: sob avaliação estrita (10/10 correto), nenhum modelo excede 75%, e as restrições de presença são as mais difíceis (44%). Uma dica mínima (por exemplo, enfatizar o objeto-chave) recupera +15 pp em média, sugerindo que a falha está na inferência da restrição e não na falta de conhecimento; 12/14 modelos têm pior desempenho quando a restrição é removida (até -39 pp), revelando um viés conservador. Sondagens paramétricas confirmam que o padrão sigmoidal generaliza-se para heurísticas de custo, eficiência e similaridade semântica; o *prompting* de decomposição de objetivos recupera +6 a 9 pp ao forçar os modelos a enumerar pré-condições antes de responder. Juntos, estes resultados caracterizam a sobreposição heurística como uma vulnerabilidade sistemática de raciocínio e fornecem um *benchmark* para medir o progresso na sua resolução.

English

Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.