OThink-R1: Cambio Intrínseco entre Modos de Pensamiento Rápido/Lento para la Mitigación del Sobre-Razonamiento

Resumen

Los modelos avanzados recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) aprovechan el razonamiento extendido de cadena de pensamiento (CoT, por sus siglas en inglés) para resolver tareas complejas, logrando un rendimiento de vanguardia. A pesar de su éxito, identificamos un problema crítico: una porción sustancial de tareas simples resueltas por los LRMs también pueden ser abordadas por modelos de lenguaje grandes (LLMs, por sus siglas en inglés) no basados en razonamiento, utilizando significativamente menos tokens, lo que indica que el razonamiento complejo puede no ser siempre necesario. Para abordar esto, analizamos sistemáticamente las trayectorias de razonamiento de los LRMs y presentamos un método que utiliza paradigmas identificados y un LLM-Juez para clasificar estas trayectorias como Razonamiento Redundante o Razonamiento Esencial. Además, introducimos OThink-R1, un método que poda los pasos de razonamiento redundantes mientras preserva la validez lógica. OThink-R1 emplea dinámicamente el modo de no pensamiento (pensamiento rápido) para problemas sencillos, mientras que recurre al pensamiento deliberado (pensamiento lento) para problemas complejos. Los experimentos en tareas matemáticas y de respuesta a preguntas demuestran que OThink-R1 reduce la redundancia de razonamiento en casi un 23% en promedio sin comprometer la precisión, ofreciendo pautas prácticas para modelos de razonamiento eficientes. El código está disponible en https://github.com/AgenticIR-Lab/OThink-R1.

English

Recent advanced large reasoning models (LRMs) leverage extended chain-of-thought (CoT) reasoning to solve complex tasks, achieving state-of-the-art performance. Despite their success, we identify a critical issue: a substantial portion of simple tasks solved by LRMs can also be addressed by non-reasoning LLMs using significantly fewer tokens, indicating the complex reasoning may not always be necessary. To address this, we systematically analyze the reasoning trajectories of LRMs and present a method utilizing identified paradigms and LLM-Judge to classify these trajectories as either Redundant Reasoning or Essential Reasoning. And we introduce OThink-R1, a method that prunes redundant reasoning steps while preserving logical validity. OThink-R1 dynamically employs the non-thinking mode (fast-thinking) for straightforward problems while engaging in deliberate thinking (slow-thinking) for complex problems. Experiments across mathematical and question-answering tasks demonstrate that OThink-R1 reduces reasoning redundancy by almost 23\% on average without compromising accuracy, offering practical guidelines for efficient reasoning models. The code is available at https://github.com/AgenticIR-Lab/OThink-R1.

OThink-R1: Cambio Intrínseco entre Modos de Pensamiento Rápido/Lento para la Mitigación del Sobre-Razonamiento

OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Resumen

Support