ChatPaper.aiChatPaper

OThink-R1: Внутреннее переключение между быстрым и медленным режимами мышления для смягчения чрезмерного анализа

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

June 3, 2025
Авторы: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI

Аннотация

Современные крупные модели рассуждений (LRMs) используют расширенное цепочечное рассуждение (CoT) для решения сложных задач, достигая наилучших результатов. Однако, несмотря на их успех, мы выявили критическую проблему: значительная часть простых задач, решаемых LRMs, может быть также решена нерассуждающими LLM с использованием значительно меньшего количества токенов, что указывает на то, что сложное рассуждение не всегда необходимо. Для решения этой проблемы мы систематически анализируем траектории рассуждений LRMs и представляем метод, использующий выявленные парадигмы и LLM-Judge для классификации этих траекторий как избыточного или необходимого рассуждения. Мы также представляем OThink-R1 — метод, который устраняет избыточные шаги рассуждения, сохраняя при этом логическую валидность. OThink-R1 динамически применяет режим "не-мышления" (быстрое мышление) для простых задач, в то время как для сложных задач используется вдумчивое мышление (медленное мышление). Эксперименты на математических задачах и задачах ответов на вопросы показывают, что OThink-R1 сокращает избыточность рассуждений в среднем на 23\% без ущерба для точности, предлагая практические рекомендации для эффективных моделей рассуждений. Код доступен по адресу https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended chain-of-thought (CoT) reasoning to solve complex tasks, achieving state-of-the-art performance. Despite their success, we identify a critical issue: a substantial portion of simple tasks solved by LRMs can also be addressed by non-reasoning LLMs using significantly fewer tokens, indicating the complex reasoning may not always be necessary. To address this, we systematically analyze the reasoning trajectories of LRMs and present a method utilizing identified paradigms and LLM-Judge to classify these trajectories as either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1, a method that prunes redundant reasoning steps while preserving logical validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking) for straightforward problems while engaging in deliberate thinking (slow-thinking) for complex problems. Experiments across mathematical and question-answering tasks demonstrate that OThink-R1 reduces reasoning redundancy by almost 23\% on average without compromising accuracy, offering practical guidelines for efficient reasoning models. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.
PDF332June 4, 2025