OThink-R1: Cambio Intrínseco entre Modos de Pensamiento Rápido/Lento para la Mitigación del Sobre-Razonamiento
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation
June 3, 2025
Autores: Shengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang
cs.AI
Resumen
Los modelos avanzados recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) aprovechan el razonamiento extendido de cadena de pensamiento (CoT, por sus siglas en inglés) para resolver tareas complejas, logrando un rendimiento de vanguardia. A pesar de su éxito, identificamos un problema crítico: una porción sustancial de tareas simples resueltas por los LRMs también pueden ser abordadas por modelos de lenguaje grandes (LLMs, por sus siglas en inglés) no basados en razonamiento, utilizando significativamente menos tokens, lo que indica que el razonamiento complejo puede no ser siempre necesario. Para abordar esto, analizamos sistemáticamente las trayectorias de razonamiento de los LRMs y presentamos un método que utiliza paradigmas identificados y un LLM-Juez para clasificar estas trayectorias como Razonamiento Redundante o Razonamiento Esencial. Además, introducimos OThink-R1, un método que poda los pasos de razonamiento redundantes mientras preserva la validez lógica. OThink-R1 emplea dinámicamente el modo de no pensamiento (pensamiento rápido) para problemas sencillos, mientras que recurre al pensamiento deliberado (pensamiento lento) para problemas complejos. Los experimentos en tareas matemáticas y de respuesta a preguntas demuestran que OThink-R1 reduce la redundancia de razonamiento en casi un 23% en promedio sin comprometer la precisión, ofreciendo pautas prácticas para modelos de razonamiento eficientes. El código está disponible en https://github.com/AgenticIR-Lab/OThink-R1.
English
Recent advanced large reasoning models (LRMs) leverage extended
chain-of-thought (CoT) reasoning to solve complex tasks, achieving
state-of-the-art performance. Despite their success, we identify a critical
issue: a substantial portion of simple tasks solved by LRMs can also be
addressed by non-reasoning LLMs using significantly fewer tokens, indicating
the complex reasoning may not always be necessary. To address this, we
systematically analyze the reasoning trajectories of LRMs and present a method
utilizing identified paradigms and LLM-Judge to classify these trajectories as
either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1,
a method that prunes redundant reasoning steps while preserving logical
validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking)
for straightforward problems while engaging in deliberate thinking
(slow-thinking) for complex problems. Experiments across mathematical and
question-answering tasks demonstrate that OThink-R1 reduces reasoning
redundancy by almost 23\% on average without compromising accuracy, offering
practical guidelines for efficient reasoning models. The code is available at
https://github.com/AgenticIR-Lab/OThink-R1.