ChatPaper.aiChatPaper

El Modelo de Razonamiento es Obstinado: Diagnóstico de la Anulación de Instrucciones en Modelos de Razonamiento

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
Autores: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI

Resumen

Los modelos de lenguaje de gran escala han demostrado una notable competencia en tareas de razonamiento largas y complejas. Sin embargo, frecuentemente exhiben una dependencia problemática hacia patrones de razonamiento familiares, un fenómeno que denominamos rigidez de razonamiento. A pesar de las instrucciones explícitas de los usuarios, estos modelos a menudo anulan condiciones claramente establecidas y recurren a trayectorias de razonamiento habituales, lo que lleva a conclusiones incorrectas. Este comportamiento presenta desafíos significativos, particularmente en dominios como las matemáticas y los acertijos lógicos, donde la adherencia precisa a las restricciones especificadas es crítica. Para investigar sistemáticamente la rigidez de razonamiento, un comportamiento en gran medida inexplorado en trabajos previos, introducimos un conjunto de diagnóstico curado por expertos. Nuestro conjunto de datos incluye variantes especialmente modificadas de puntos de referencia matemáticos existentes, como AIME y MATH500, así como acertijos conocidos rediseñados deliberadamente para requerir una desviación de las estrategias de razonamiento familiares. Utilizando este conjunto de datos, identificamos patrones recurrentes de contaminación que ocurren cuando los modelos recurren a razonamientos arraigados. Específicamente, categorizamos esta contaminación en tres modos distintivos: (i) Sobrecarga de Interpretación, (ii) Desconfianza en la Entrada, y (iii) Atención Parcial a las Instrucciones, cada uno de los cuales hace que los modelos ignoren o distorsionen las instrucciones proporcionadas. Publicamos nuestro conjunto de diagnóstico para facilitar futuras investigaciones sobre la mitigación de la rigidez de razonamiento en los modelos de lenguaje.
English
Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term reasoning rigidity. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, . Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.

Summary

AI-Generated Summary

PDF592May 26, 2025