ChatPaper.aiChatPaper

Das Reasoning-Modell ist stur: Diagnose der Instruktionsüberschreibung in Reasoning-Modellen

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
Autoren: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI

Zusammenfassung

Große Sprachmodelle haben eine bemerkenswerte Fähigkeit bei langen und komplexen Denkaufgaben gezeigt. Allerdings zeigen sie häufig eine problematische Abhängigkeit von vertrauten Denkmustern, ein Phänomen, das wir als Denkrigidität bezeichnen. Trotz expliziter Anweisungen der Nutzer überschreiben diese Modelle oft klar formulierte Bedingungen und greifen auf gewohnte Denkpfade zurück, was zu falschen Schlussfolgerungen führt. Dieses Verhalten stellt erhebliche Herausforderungen dar, insbesondere in Bereichen wie Mathematik und Logikrätseln, in denen die präzise Einhaltung spezifizierter Einschränkungen entscheidend ist. Um die Denkrigidität systematisch zu untersuchen, ein Verhalten, das in früheren Arbeiten weitgehend unerforscht blieb, führen wir einen von Experten kuratierten Diagnosesatz ein. Unser Datensatz umfasst speziell modifizierte Varianten bestehender mathematischer Benchmarks, nämlich AIME und MATH500, sowie bekannte Rätsel, die bewusst so umgestaltet wurden, dass sie eine Abweichung von vertrauten Denkstrategien erfordern. Mit diesem Datensatz identifizieren wir wiederkehrende Kontaminationsmuster, die auftreten, wenn Modelle auf eingefahrene Denkweisen zurückgreifen. Insbesondere kategorisieren wir diese Kontamination in drei charakteristische Modi: (i) Interpretationsüberlastung, (ii) Eingabemissvertrauen und (iii) Teilweise Anweisungsbeachtung, die jeweils dazu führen, dass Modelle bereitgestellte Anweisungen ignorieren oder verzerren. Wir veröffentlichen unseren Diagnosesatz, um zukünftige Forschungen zur Minderung von Denkrigidität in Sprachmodellen zu erleichtern.
English
Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term reasoning rigidity. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, . Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.

Summary

AI-Generated Summary

PDF592May 26, 2025