Redeneermodel is Koppig: Diagnose van Instructie-Overschrijving in Redeneermodellen
Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models
May 22, 2025
Auteurs: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI
Samenvatting
Grote taalmodellen hebben opmerkelijke vaardigheden getoond in lange en complexe redeneertaken. Echter, vertonen ze vaak een problematische afhankelijkheid van bekende redeneerpatronen, een fenomeen dat we redeneerrigiditeit noemen. Ondanks expliciete instructies van gebruikers, negeren deze modellen vaak duidelijk gestelde voorwaarden en vallen ze terug op gebruikelijke redeneerlijnen, wat leidt tot incorrecte conclusies. Dit gedrag vormt aanzienlijke uitdagingen, met name in domeinen zoals wiskunde en logische puzzels, waar nauwkeurige naleving van gespecificeerde beperkingen cruciaal is. Om redeneerrigiditeit systematisch te onderzoeken, een gedrag dat grotendeels onontgonnen is in eerder werk, introduceren we een door experts samengestelde diagnostische set. Onze dataset omvat speciaal aangepaste varianten van bestaande wiskundige benchmarks, namelijk AIME en MATH500, evenals bekende puzzels die opzettelijk zijn herontworpen om afwijking van vertrouwde redeneerstrategieën te vereisen. Met behulp van deze dataset identificeren we terugkerende besmettingspatronen die optreden wanneer modellen terugvallen op ingesleten redeneringen. Specifiek categoriseren we deze besmetting in drie onderscheidende modi: (i) Interpretatie Overbelasting, (ii) Input Wantrouwen, en (iii) Gedeeltelijke Instructie Aandacht, die elk ervoor zorgen dat modellen verstrekte instructies negeren of verdraaien. We maken onze diagnostische set publiekelijk beschikbaar om toekomstig onderzoek naar het verminderen van redeneerrigiditeit in taalmodellen te faciliteren.
English
Large language models have demonstrated remarkable proficiency in long and
complex reasoning tasks. However, they frequently exhibit a problematic
reliance on familiar reasoning patterns, a phenomenon we term reasoning
rigidity. Despite explicit instructions from users, these models often
override clearly stated conditions and default to habitual reasoning
trajectories, leading to incorrect conclusions. This behavior presents
significant challenges, particularly in domains such as mathematics and logic
puzzle, where precise adherence to specified constraints is critical. To
systematically investigate reasoning rigidity, a behavior largely unexplored in
prior work, we introduce a expert-curated diagnostic set, . Our
dataset includes specially modified variants of existing mathematical
benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately
redesigned to require deviation from familiar reasoning strategies. Using this
dataset, we identify recurring contamination patterns that occur when models
default to ingrained reasoning. Specifically, we categorize this contamination
into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust,
and (iii) Partial Instruction Attention, each causing models to ignore or
distort provided instructions. We publicly release our diagnostic set to
facilitate future research on mitigating reasoning rigidity in language models.