ChatPaper.aiChatPaper

O Modelo de Raciocínio é Teimoso: Diagnosticando a Sobrescrita de Instruções em Modelos de Raciocínio

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
Autores: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI

Resumo

Modelos de linguagem de grande escala têm demonstrado proficiência notável em tarefas de raciocínio longas e complexas. No entanto, eles frequentemente exibem uma dependência problemática de padrões de raciocínio familiares, um fenômeno que denominamos rigidez de raciocínio. Apesar de instruções explícitas dos usuários, esses modelos frequentemente ignoram condições claramente estabelecidas e recorrem a trajetórias de raciocínio habituais, levando a conclusões incorretas. Esse comportamento apresenta desafios significativos, especialmente em domínios como matemática e quebra-cabeças lógicos, onde a adesão precisa a restrições especificadas é crucial. Para investigar sistematicamente a rigidez de raciocínio, um comportamento amplamente inexplorado em trabalhos anteriores, introduzimos um conjunto diagnóstico curado por especialistas. Nosso conjunto de dados inclui variantes especialmente modificadas de benchmarks matemáticos existentes, nomeadamente AIME e MATH500, além de quebra-cabeças conhecidos deliberadamente redesenhados para exigir desvios de estratégias de raciocínio familiares. Utilizando esse conjunto de dados, identificamos padrões recorrentes de contaminação que ocorrem quando os modelos recorrem a raciocínios enraizados. Especificamente, categorizamos essa contaminação em três modos distintos: (i) Sobrecarga de Interpretação, (ii) Desconfiança da Entrada e (iii) Atenção Parcial às Instruções, cada um fazendo com que os modelos ignorem ou distorçam as instruções fornecidas. Disponibilizamos publicamente nosso conjunto diagnóstico para facilitar pesquisas futuras sobre a mitigação da rigidez de raciocínio em modelos de linguagem.
English
Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term reasoning rigidity. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, . Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.
PDF642May 26, 2025