Il Modello di Ragionamento è Testardo: Diagnosi del Sovrascrivere le Istruzioni nei Modelli di Ragionamento
Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models
May 22, 2025
Autori: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni hanno dimostrato una notevole competenza in compiti di ragionamento lunghi e complessi. Tuttavia, mostrano frequentemente una problematica dipendenza da schemi di ragionamento familiari, un fenomeno che definiamo rigidità di ragionamento. Nonostante istruzioni esplicite da parte degli utenti, questi modelli spesso ignorano condizioni chiaramente enunciate e ricadono in traiettorie di ragionamento abituali, portando a conclusioni errate. Questo comportamento presenta sfide significative, specialmente in domini come la matematica e gli enigmi logici, dove l'aderenza precisa a vincoli specificati è cruciale. Per indagare sistematicamente la rigidità di ragionamento, un comportamento largamente inesplorato in precedenti lavori, introduciamo un set diagnostico curato da esperti. Il nostro dataset include varianti appositamente modificate di benchmark matematici esistenti, come AIME e MATH500, nonché enigmi ben noti deliberatamente riprogettati per richiedere una deviazione dalle strategie di ragionamento familiari. Utilizzando questo dataset, identifiamo schemi ricorrenti di contaminazione che si verificano quando i modelli ricadono in ragionamenti radicati. Nello specifico, categorizziamo questa contaminazione in tre modalità distinte: (i) Sovraccarico Interpretativo, (ii) Diffidenza verso l'Input, e (iii) Attenzione Parziale alle Istruzioni, ciascuna delle quali induce i modelli a ignorare o distorcere le istruzioni fornite. Rilasciamo pubblicamente il nostro set diagnostico per facilitare future ricerche sulla mitigazione della rigidità di ragionamento nei modelli linguistici.
English
Large language models have demonstrated remarkable proficiency in long and
complex reasoning tasks. However, they frequently exhibit a problematic
reliance on familiar reasoning patterns, a phenomenon we term reasoning
rigidity. Despite explicit instructions from users, these models often
override clearly stated conditions and default to habitual reasoning
trajectories, leading to incorrect conclusions. This behavior presents
significant challenges, particularly in domains such as mathematics and logic
puzzle, where precise adherence to specified constraints is critical. To
systematically investigate reasoning rigidity, a behavior largely unexplored in
prior work, we introduce a expert-curated diagnostic set, . Our
dataset includes specially modified variants of existing mathematical
benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately
redesigned to require deviation from familiar reasoning strategies. Using this
dataset, we identify recurring contamination patterns that occur when models
default to ingrained reasoning. Specifically, we categorize this contamination
into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust,
and (iii) Partial Instruction Attention, each causing models to ignore or
distort provided instructions. We publicly release our diagnostic set to
facilitate future research on mitigating reasoning rigidity in language models.