OThink-R1: Внутреннее переключение между быстрым и медленным режимами мышления для смягчения чрезмерного анализа

Аннотация

Современные крупные модели рассуждений (LRMs) используют расширенное цепочечное рассуждение (CoT) для решения сложных задач, достигая наилучших результатов. Однако, несмотря на их успех, мы выявили критическую проблему: значительная часть простых задач, решаемых LRMs, может быть также решена нерассуждающими LLM с использованием значительно меньшего количества токенов, что указывает на то, что сложное рассуждение не всегда необходимо. Для решения этой проблемы мы систематически анализируем траектории рассуждений LRMs и представляем метод, использующий выявленные парадигмы и LLM-Judge для классификации этих траекторий как избыточного или необходимого рассуждения. Мы также представляем OThink-R1 — метод, который устраняет избыточные шаги рассуждения, сохраняя при этом логическую валидность. OThink-R1 динамически применяет режим "не-мышления" (быстрое мышление) для простых задач, в то время как для сложных задач используется вдумчивое мышление (медленное мышление). Эксперименты на математических задачах и задачах ответов на вопросы показывают, что OThink-R1 сокращает избыточность рассуждений в среднем на 23\% без ущерба для точности, предлагая практические рекомендации для эффективных моделей рассуждений. Код доступен по адресу https://github.com/AgenticIR-Lab/OThink-R1.

English

Recent advanced large reasoning models (LRMs) leverage extended chain-of-thought (CoT) reasoning to solve complex tasks, achieving state-of-the-art performance. Despite their success, we identify a critical issue: a substantial portion of simple tasks solved by LRMs can also be addressed by non-reasoning LLMs using significantly fewer tokens, indicating the complex reasoning may not always be necessary. To address this, we systematically analyze the reasoning trajectories of LRMs and present a method utilizing identified paradigms and LLM-Judge to classify these trajectories as either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1, a method that prunes redundant reasoning steps while preserving logical validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking) for straightforward problems while engaging in deliberate thinking (slow-thinking) for complex problems. Experiments across mathematical and question-answering tasks demonstrate that OThink-R1 reduces reasoning redundancy by almost 23\% on average without compromising accuracy, offering practical guidelines for efficient reasoning models. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.

OThink-R1: Внутреннее переключение между быстрым и медленным режимами мышления для смягчения чрезмерного анализа

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Аннотация

Support