ChatPaper.aiChatPaper

Il Modello di Ragionamento è Testardo: Diagnosi del Sovrascrivere le Istruzioni nei Modelli di Ragionamento

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
Autori: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI

Abstract

I modelli linguistici di grandi dimensioni hanno dimostrato una notevole competenza in compiti di ragionamento lunghi e complessi. Tuttavia, mostrano frequentemente una problematica dipendenza da schemi di ragionamento familiari, un fenomeno che definiamo rigidità di ragionamento. Nonostante istruzioni esplicite da parte degli utenti, questi modelli spesso ignorano condizioni chiaramente enunciate e ricadono in traiettorie di ragionamento abituali, portando a conclusioni errate. Questo comportamento presenta sfide significative, specialmente in domini come la matematica e gli enigmi logici, dove l'aderenza precisa a vincoli specificati è cruciale. Per indagare sistematicamente la rigidità di ragionamento, un comportamento largamente inesplorato in precedenti lavori, introduciamo un set diagnostico curato da esperti. Il nostro dataset include varianti appositamente modificate di benchmark matematici esistenti, come AIME e MATH500, nonché enigmi ben noti deliberatamente riprogettati per richiedere una deviazione dalle strategie di ragionamento familiari. Utilizzando questo dataset, identifiamo schemi ricorrenti di contaminazione che si verificano quando i modelli ricadono in ragionamenti radicati. Nello specifico, categorizziamo questa contaminazione in tre modalità distinte: (i) Sovraccarico Interpretativo, (ii) Diffidenza verso l'Input, e (iii) Attenzione Parziale alle Istruzioni, ciascuna delle quali induce i modelli a ignorare o distorcere le istruzioni fornite. Rilasciamo pubblicamente il nostro set diagnostico per facilitare future ricerche sulla mitigazione della rigidità di ragionamento nei modelli linguistici.
English
Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term reasoning rigidity. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, . Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.
PDF652May 26, 2025