Модель рассуждений упряма: диагностика переопределения инструкций в моделях рассуждений
Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models
May 22, 2025
Авторы: Doohyuk Jang, Yoonjeon Kim, Chanjae Park, Hyun Ryu, Eunho Yang
cs.AI
Аннотация
Крупные языковые модели продемонстрировали впечатляющую способность справляться с длительными и сложными задачами логического рассуждения. Однако они часто проявляют проблематичную зависимость от привычных шаблонов мышления — явление, которое мы называем **ригидностью рассуждений**. Несмотря на явные указания пользователей, эти модели нередко игнорируют четко сформулированные условия и возвращаются к привычным траекториям рассуждений, что приводит к ошибочным выводам. Такое поведение создает серьезные трудности, особенно в таких областях, как математика и логические головоломки, где точное соблюдение заданных ограничений имеет критическое значение. Для систематического изучения ригидности рассуждений — явления, которое ранее практически не исследовалось, — мы представляем экспертно составленный диагностический набор данных. Наш набор включает специально модифицированные версии существующих математических тестов, таких как AIME и MATH500, а также известные головоломки, намеренно переработанные так, чтобы требовалось отклонение от привычных стратегий рассуждения. Используя этот набор данных, мы выявляем повторяющиеся паттерны искажений, возникающие, когда модели возвращаются к укоренившимся шаблонам мышления. В частности, мы классифицируем эти искажения на три характерных режима: (i) **Перегрузка интерпретации**, (ii) **Недоверие к входным данным** и (iii) **Частичное внимание к инструкциям**, каждый из которых заставляет модели игнорировать или искажать предоставленные указания. Мы публикуем наш диагностический набор данных, чтобы способствовать дальнейшим исследованиям, направленным на смягчение ригидности рассуждений в языковых моделях.
English
Large language models have demonstrated remarkable proficiency in long and
complex reasoning tasks. However, they frequently exhibit a problematic
reliance on familiar reasoning patterns, a phenomenon we term reasoning
rigidity. Despite explicit instructions from users, these models often
override clearly stated conditions and default to habitual reasoning
trajectories, leading to incorrect conclusions. This behavior presents
significant challenges, particularly in domains such as mathematics and logic
puzzle, where precise adherence to specified constraints is critical. To
systematically investigate reasoning rigidity, a behavior largely unexplored in
prior work, we introduce a expert-curated diagnostic set, . Our
dataset includes specially modified variants of existing mathematical
benchmarks, namely AIME and MATH500, as well as well-known puzzles deliberately
redesigned to require deviation from familiar reasoning strategies. Using this
dataset, we identify recurring contamination patterns that occur when models
default to ingrained reasoning. Specifically, we categorize this contamination
into three distinctive modes: (i) Interpretation Overload, (ii) Input Distrust,
and (iii) Partial Instruction Attention, each causing models to ignore or
distort provided instructions. We publicly release our diagnostic set to
facilitate future research on mitigating reasoning rigidity in language models.Summary
AI-Generated Summary