ChatPaper.aiChatPaper

推論モデルは頑固である:推論モデルにおける指示上書きの診断

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
著者: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI

要旨

大規模言語モデルは、長く複雑な推論タスクにおいて顕著な能力を発揮することが実証されています。しかし、これらのモデルはしばしば慣れ親しんだ推論パターンに過度に依存するという問題を抱えており、この現象を我々は「推論の硬直性」と呼んでいます。ユーザーからの明確な指示があるにもかかわらず、これらのモデルはしばしば明示された条件を無視し、慣習的な推論経路に戻ってしまい、誤った結論を導くことがあります。このような振る舞いは、特に数学や論理パズルのような領域において、指定された制約を厳密に遵守することが重要な場合に重大な課題を引き起こします。推論の硬直性を体系的に調査するため、これまでほとんど研究されていないこの現象を探るために、我々は専門家がキュレートした診断用データセットを導入しました。このデータセットには、既存の数学ベンチマークであるAIMEとMATH500を特別に修正したバージョンや、慣れ親しんだ推論戦略から逸脱することを意図的に要求するように再設計された有名なパズルが含まれています。このデータセットを使用して、モデルが染みついた推論に戻る際に発生する繰り返しの汚染パターンを特定しました。具体的には、この汚染を3つの特徴的なモードに分類します:(i) 解釈過剰、(ii) 入力不信、(iii) 部分的な指示注意、それぞれがモデルに提供された指示を無視または歪める原因となります。我々は、言語モデルの推論の硬直性を緩和するための今後の研究を促進するために、この診断用データセットを公開します。
English
Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term reasoning rigidity. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, . Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.

Summary

AI-Generated Summary

PDF592May 26, 2025