El Modelo Dice Camina: Cómo las Heurísticas Superficiales Anulan las Restricciones Implícitas en el Razonamiento de los LLM

Resumen

Los modelos de lenguaje grandes fallan sistemáticamente cuando una pista superficial prominente entra en conflicto con una restricción de viabilidad no declarada. Estudiamos esto mediante un marco de diagnóstico-medición-puente-tratamiento. El análisis causal-conductual del "problema del lavado de coches" en seis modelos revela heurísticas sigmoidales aproximadamente independientes del contexto: la pista de distancia ejerce una influencia de 8,7 a 38 veces mayor que la del objetivo, y la atribución a nivel de token muestra patrones más consistentes con asociaciones de palabras clave que con inferencia composicional. El Benchmark de Anulación Heurística (HOB) —500 instancias que abarcan 4 heurísticas por 5 familias de restricciones con pares mínimos y gradientes de explicitación— demuestra la generalidad en 14 modelos: bajo evaluación estricta (10/10 correctas), ningún modelo supera el 75%, y las restricciones de presencia son las más difíciles (44%). Una pista mínima (por ejemplo, enfatizar el objeto clave) recupera +15 pp en promedio, lo que sugiere que el fallo reside en la inferencia de la restricción y no en la falta de conocimiento; 12/14 modelos obtienen peores resultados cuando se elimina la restricción (hasta -39 pp), revelando un sesgo conservador. Los sondeos paramétricos confirman que el patrón sigmoidal se generaliza a las heurísticas de costo, eficiencia y similitud semántica; el prompting de descomposición de objetivos recupera +6 a 9 pp al forzar a los modelos a enumerar precondiciones antes de responder. En conjunto, estos resultados caracterizan la anulación heurística como una vulnerabilidad sistemática del razonamiento y proporcionan un benchmark para medir el progreso hacia su resolución.

English

Large language models systematically fail when a salient surface cue conflicts with an unstated feasibility constraint. We study this through a diagnose-measure-bridge-treat framework. Causal-behavioral analysis of the ``car wash problem'' across six models reveals approximately context-independent sigmoid heuristics: the distance cue exerts 8.7 to 38 times more influence than the goal, and token-level attribution shows patterns more consistent with keyword associations than compositional inference. The Heuristic Override Benchmark (HOB) -- 500 instances spanning 4 heuristic by 5 constraint families with minimal pairs and explicitness gradients -- demonstrates generality across 14 models: under strict evaluation (10/10 correct), no model exceeds 75%, and presence constraints are hardest (44%). A minimal hint (e.g., emphasizing the key object) recovers +15 pp on average, suggesting the failure lies in constraint inference rather than missing knowledge; 12/14 models perform worse when the constraint is removed (up to -39 pp), revealing conservative bias. Parametric probes confirm that the sigmoid pattern generalizes to cost, efficiency, and semantic-similarity heuristics; goal-decomposition prompting recovers +6 to 9 pp by forcing models to enumerate preconditions before answering. Together, these results characterize heuristic override as a systematic reasoning vulnerability and provide a benchmark for measuring progress toward resolving it.

El Modelo Dice Camina: Cómo las Heurísticas Superficiales Anulan las Restricciones Implícitas en el Razonamiento de los LLM

The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

Resumen

Support