ChatPaper.aiChatPaper

추론 모델은 고집스럽다: 추론 모델에서의 명령어 재정의 현상 진단

Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models

May 22, 2025
저자: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI

초록

대규모 언어 모델은 길고 복잡한 추론 작업에서 놀라운 숙련도를 보여왔습니다. 그러나 이러한 모델들은 종종 익숙한 추론 패턴에 과도하게 의존하는 문제를 보이는데, 우리는 이를 '추론 경직성(reasoning rigidity)'이라고 명명합니다. 사용자의 명시적인 지시에도 불구하고, 이러한 모델들은 종종 명확히 제시된 조건을 무시하고 익숙한 추론 경로를 기본값으로 사용하여 잘못된 결론에 이르게 됩니다. 이러한 행동은 특히 수학 및 논리 퍼즐과 같은 영역에서 중요한 도전 과제로 작용하는데, 이는 지정된 제약 조건을 정확히 준수하는 것이 매우 중요하기 때문입니다. 이전 연구에서 크게 다루지 않았던 추론 경직성을 체계적으로 조사하기 위해, 우리는 전문가가 선별한 진단 데이터셋을 소개합니다. 우리의 데이터셋은 기존의 수학 벤치마크인 AIME와 MATH500의 특별히 수정된 변형과 익숙한 추론 전략에서 벗어나도록 의도적으로 재설계된 잘 알려진 퍼즐들을 포함합니다. 이 데이터셋을 사용하여, 모델들이 익숙한 추론을 기본값으로 사용할 때 발생하는 반복적인 오염 패턴을 식별합니다. 구체적으로, 우리는 이러한 오염을 세 가지 독특한 모드로 분류합니다: (i) 해석 과부하(Interpretation Overload), (ii) 입력 불신(Input Distrust), (iii) 부분적 지시 주의(Partial Instruction Attention). 각각의 모드는 모델이 제공된 지시를 무시하거나 왜곡하게 만듭니다. 우리는 언어 모델의 추론 경직성을 완화하기 위한 미래 연구를 촉진하기 위해 이 진단 데이터셋을 공개합니다.
English
Large language models have demonstrated remarkable proficiency in long and complex reasoning tasks. However, they frequently exhibit a problematic reliance on familiar reasoning patterns, a phenomenon we term reasoning rigidity. Despite explicit instructions from users, these models often override clearly stated conditions and default to habitual reasoning trajectories, leading to incorrect conclusions. This behavior presents significant challenges, particularly in domains such as mathematics and logic puzzle, where precise adherence to specified constraints is critical. To systematically investigate reasoning rigidity, a behavior largely unexplored in prior work, we introduce a expert-curated diagnostic set, . Our dataset includes specially modified variants of existing mathematical benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately redesigned to require deviation from familiar reasoning strategies. Using this dataset, we identify recurring contamination patterns that occur when models default to ingrained reasoning. Specifically, we categorize this contamination into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust, and (iii) Partial Instruction Attention, each causing models to ignore or distort provided instructions. We publicly release our diagnostic set to facilitate future research on mitigating reasoning rigidity in language models.

Summary

AI-Generated Summary

PDF592May 26, 2025