OThink-R1: Внутреннее переключение между быстрым и медленным режимами мышления для смягчения чрезмерного анализа
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
June 3, 2025
Авторы: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI
Аннотация
Современные крупные модели рассуждений (LRMs) используют расширенное цепочечное рассуждение (CoT) для решения сложных задач, достигая наилучших результатов. Однако, несмотря на их успех, мы выявили критическую проблему: значительная часть простых задач, решаемых LRMs, может быть также решена нерассуждающими LLM с использованием значительно меньшего количества токенов, что указывает на то, что сложное рассуждение не всегда необходимо. Для решения этой проблемы мы систематически анализируем траектории рассуждений LRMs и представляем метод, использующий выявленные парадигмы и LLM-Judge для классификации этих траекторий как избыточного или необходимого рассуждения. Мы также представляем OThink-R1 — метод, который устраняет избыточные шаги рассуждения, сохраняя при этом логическую валидность. OThink-R1 динамически применяет режим "не-мышления" (быстрое мышление) для простых задач, в то время как для сложных задач используется вдумчивое мышление (медленное мышление). Эксперименты на математических задачах и задачах ответов на вопросы показывают, что OThink-R1 сокращает избыточность рассуждений в среднем на 23\% без ущерба для точности, предлагая практические рекомендации для эффективных моделей рассуждений. Код доступен по адресу https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended
chain-of-thought (CoT) reasoning to solve complex tasks, achieving
state-of-the-art performance. Despite their success, we identify a critical
issue: a substantial portion of simple tasks solved by LRMs can also be
addressed by non-reasoning LLMs using significantly fewer tokens, indicating
the complex reasoning may not always be necessary. To address this, we
systematically analyze the reasoning trajectories of LRMs and present a method
utilizing identified paradigms and LLM-Judge to classify these trajectories as
either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1,
a method that prunes redundant reasoning steps while preserving logical
validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking)
for straightforward problems while engaging in deliberate thinking
(slow-thinking) for complex problems. Experiments across mathematical and
question-answering tasks demonstrate that OThink-R1 reduces reasoning
redundancy by almost 23\% on average without compromising accuracy, offering
practical guidelines for efficient reasoning models. The code is available at
https://github.com/AgenticIR-Lab/OThink-R1.