No te compliques: Un estudio sobre modelos eficientes de razonamiento a gran escala estilo R1
Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models
August 4, 2025
Autores: Linan Yue, Yichao Du, Yizhi Wang, Weibo Gao, Fangzhou Yao, Li Wang, Ye Liu, Ziyu Xu, Qi Liu, Shimin Di, Min-Ling Zhang
cs.AI
Resumen
Recientemente, los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) se han convertido gradualmente en un foco de investigación debido a su destacado rendimiento en tareas complejas. Entre ellos, DeepSeek R1 ha captado una atención significativa por su excepcional desempeño y su naturaleza de código abierto, impulsando avances en la investigación de LRMs de estilo R1. A diferencia de los Modelos de Lenguaje a Gran Escala (LLMs) tradicionales, estos modelos mejoran las capacidades de deducción lógica y toma de decisiones durante el razonamiento mediante la incorporación de mecanismos como cadenas de pensamiento largas y autorreflexión a través del aprendizaje por refuerzo. Sin embargo, con la aplicación generalizada de estos modelos, el problema del sobrepensamiento ha surgido gradualmente. Específicamente, al generar respuestas, estos modelos suelen construir cadenas de razonamiento excesivamente largas con pasos redundantes o repetitivos, lo que reduce la eficiencia del razonamiento y puede afectar la precisión de la respuesta final. Para abordar esto, se han propuesto diversos métodos de razonamiento eficiente, con el objetivo de reducir la longitud de las rutas de razonamiento sin comprometer el rendimiento del modelo ni su capacidad de razonamiento. Al revisar sistemáticamente los avances actuales en el campo de los métodos de razonamiento eficiente, categorizamos los trabajos existentes en dos direcciones principales basadas en la optimización de un solo modelo versus la colaboración entre modelos: (1) Razonamiento Eficiente con un Solo Modelo, que se centra en mejorar la eficiencia del razonamiento de modelos individuales; y (2) Razonamiento Eficiente con Colaboración de Modelos, que explora la optimización de rutas de razonamiento mediante la colaboración entre múltiples modelos. Además, mantenemos un repositorio público en GitHub que rastrea los últimos avances en métodos de razonamiento eficiente.
English
Recently, Large Reasoning Models (LRMs) have gradually become a research
hotspot due to their outstanding performance in handling complex tasks. Among
them, DeepSeek R1 has garnered significant attention for its exceptional
performance and open-source nature, driving advancements in the research of
R1-style LRMs. Unlike traditional Large Language Models (LLMs), these models
enhance logical deduction and decision-making capabilities during reasoning by
incorporating mechanisms such as long chain-of-thought and self-reflection
through reinforcement learning. However, with the widespread application of
these models, the problem of overthinking has gradually emerged. Specifically,
when generating answers, these models often construct excessively long
reasoning chains with redundant or repetitive steps, which leads to reduced
reasoning efficiency and may affect the accuracy of the final answer. To this
end, various efficient reasoning methods have been proposed, aiming to reduce
the length of reasoning paths without compromising model performance and
reasoning capability. By reviewing the current research advancements in the
field of efficient reasoning methods systematically, we categorize existing
works into two main directions based on the lens of single-model optimization
versus model collaboration: (1) Efficient Reasoning with Single Model, which
focuses on improving the reasoning efficiency of individual models; and (2)
Efficient Reasoning with Model Collaboration, which explores optimizing
reasoning paths through collaboration among multiple models. Besides, we
maintain a public GitHub repository that tracks the latest progress in
efficient reasoning methods.