Deja de darle vueltas: Una encuesta sobre razonamiento eficiente en modelos de lenguaje a gran escala
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
March 20, 2025
Autores: Yang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en tareas complejas. Los avances recientes en Modelos de Razonamiento de Gran Escala (LRMs), como OpenAI o1 y DeepSeek-R1, han mejorado aún más el rendimiento en dominios de razonamiento de Sistema 2, como las matemáticas y la programación, al aprovechar técnicas de ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL) para mejorar el razonamiento de Cadena de Pensamiento (CoT). Sin embargo, aunque las secuencias de razonamiento CoT más largas mejoran el rendimiento, también introducen una sobrecarga computacional significativa debido a salidas verbosas y redundantes, un fenómeno conocido como "sobrerazonamiento". En este artículo, presentamos la primera encuesta estructurada para investigar y explorar sistemáticamente los avances actuales hacia la obtención de un razonamiento eficiente en los LLMs. En general, basándonos en el mecanismo inherente de los LLMs, categorizamos los trabajos existentes en varias direcciones clave: (1) razonamiento eficiente basado en modelos, que considera la optimización de modelos de razonamiento de longitud completa en modelos de razonamiento más concisos o el entrenamiento directo de modelos de razonamiento eficientes; (2) razonamiento eficiente basado en la salida de razonamiento, que busca reducir dinámicamente los pasos y la longitud del razonamiento durante la inferencia; (3) razonamiento eficiente basado en indicaciones de entrada, que busca mejorar la eficiencia del razonamiento basándose en propiedades de las indicaciones de entrada, como la dificultad o el control de longitud. Además, introducimos el uso de datos eficientes para entrenar modelos de razonamiento, exploramos las capacidades de razonamiento de los modelos de lenguaje pequeños y discutimos métodos de evaluación y benchmarking.
English
Large Language Models (LLMs) have demonstrated remarkable capabilities in
complex tasks. Recent advancements in Large Reasoning Models (LRMs), such as
OpenAI o1 and DeepSeek-R1, have further improved performance in System-2
reasoning domains like mathematics and programming by harnessing supervised
fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance the
Chain-of-Thought (CoT) reasoning. However, while longer CoT reasoning sequences
improve performance, they also introduce significant computational overhead due
to verbose and redundant outputs, known as the "overthinking phenomenon". In
this paper, we provide the first structured survey to systematically
investigate and explore the current progress toward achieving efficient
reasoning in LLMs. Overall, relying on the inherent mechanism of LLMs, we
categorize existing works into several key directions: (1) model-based
efficient reasoning, which considers optimizing full-length reasoning models
into more concise reasoning models or directly training efficient reasoning
models; (2) reasoning output-based efficient reasoning, which aims to
dynamically reduce reasoning steps and length during inference; (3) input
prompts-based efficient reasoning, which seeks to enhance reasoning efficiency
based on input prompt properties such as difficulty or length control.
Additionally, we introduce the use of efficient data for training reasoning
models, explore the reasoning capabilities of small language models, and
discuss evaluation methods and benchmarking.Summary
AI-Generated Summary