ChatPaper.aiChatPaper

Le Modèle de Raisonnement est Têtu : Diagnostic du Contournement des Instructions dans les Modèles de Raisonnement

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
Auteurs: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI

Résumé

Les grands modèles de langage ont démontré une remarquable maîtrise dans des tâches de raisonnement longues et complexes. Cependant, ils manifestent fréquemment une dépendance problématique à des schémas de raisonnement familiers, un phénomène que nous qualifions de rigidité de raisonnement. Malgré des instructions explicites des utilisateurs, ces modèles ignorent souvent des conditions clairement énoncées et reviennent à des trajectoires de raisonnement habituelles, conduisant à des conclusions incorrectes. Ce comportement pose des défis significatifs, en particulier dans des domaines tels que les mathématiques et les énigmes logiques, où un respect précis des contraintes spécifiées est crucial. Pour étudier systématiquement la rigidité de raisonnement, un comportement largement inexploré dans les travaux antérieurs, nous introduisons un ensemble de diagnostics expertement conçu. Notre ensemble de données comprend des variantes spécialement modifiées de benchmarks mathématiques existants, à savoir AIME et MATH500, ainsi que des énigmes bien connues délibérément repensées pour exiger une déviation des stratégies de raisonnement familières. En utilisant cet ensemble de données, nous identifions des schémas récurrents de contamination qui se produisent lorsque les modèles reviennent à un raisonnement ancré. Plus précisément, nous catégorisons cette contamination en trois modes distincts : (i) Surcharge d'interprétation, (ii) Méfiance envers l'entrée, et (iii) Attention partielle aux instructions, chacun causant l'ignorance ou la distorsion des instructions fournies. Nous rendons public notre ensemble de diagnostics pour faciliter les recherches futures sur l'atténuation de la rigidité de raisonnement dans les modèles de langage.
English
Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term reasoning rigidity. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, . Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.

Summary

AI-Generated Summary

PDF592May 26, 2025