OThink-R1: Modo Intrínseco de Alternância entre Pensamento Rápido/Lento para Mitigação de Super-Raciocínio
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
June 3, 2025
Autores: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI
Resumo
Modelos avançados recentes de raciocínio em larga escala (LRMs) utilizam cadeias de pensamento (CoT) estendidas para resolver tarefas complexas, alcançando desempenho de ponta. Apesar de seu sucesso, identificamos um problema crítico: uma parcela significativa de tarefas simples resolvidas por LRMs também pode ser abordada por LLMs sem raciocínio, utilizando significativamente menos tokens, indicando que o raciocínio complexo pode nem sempre ser necessário. Para resolver isso, analisamos sistematicamente as trajetórias de raciocínio dos LRMs e apresentamos um método que utiliza paradigmas identificados e o LLM-Judge para classificar essas trajetórias como Raciocínio Redundante ou Raciocínio Essencial. Além disso, introduzimos o OThink-R1, um método que poda etapas de raciocínio redundantes enquanto preserva a validade lógica. O OThink-R1 emprega dinamicamente o modo não pensante (pensamento rápido) para problemas diretos, enquanto engaja em pensamento deliberado (pensamento lento) para problemas complexos. Experimentos em tarefas matemáticas e de questionamento demonstram que o OThink-R1 reduz a redundância de raciocínio em quase 23% em média, sem comprometer a precisão, oferecendo diretrizes práticas para modelos de raciocínio eficientes. O código está disponível em https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended
chain-of-thought (CoT) reasoning to solve complex tasks, achieving
state-of-the-art performance. Despite their success, we identify a critical
issue: a substantial portion of simple tasks solved by LRMs can also be
addressed by non-reasoning LLMs using significantly fewer tokens, indicating
the complex reasoning may not always be necessary. To address this, we
systematically analyze the reasoning trajectories of LRMs and present a method
utilizing identified paradigms and LLM-Judge to classify these trajectories as
either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1,
a method that prunes redundant reasoning steps while preserving logical
validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking)
for straightforward problems while engaging in deliberate thinking
(slow-thinking) for complex problems. Experiments across mathematical and
question-answering tasks demonstrate that OThink-R1 reduces reasoning
redundancy by almost 23\% on average without compromising accuracy, offering
practical guidelines for efficient reasoning models. The code is available at
https://github.com/AgenticIR-Lab/OThink-R1.