El Arte del Razonamiento Eficiente: Datos, Recompensa y Optimización

Resumen

Los Modelos de Lenguaje Grandes (LLMs) se benefician consistentemente del razonamiento en cadena de pensamiento (CoT) escalado, pero también sufren una elevada sobrecarga computacional. Para abordar este problema, el razonamiento eficiente busca incentivar trayectorias de pensamiento cortas pero precisas, típicamente mediante la configuración de recompensas con Aprendizaje por Refuerzo (RL). En este artículo, investigiamos sistemáticamente la mecánica del razonamiento eficiente en los LLMs. Para una evaluación integral, abogamos por métricas más detalladas, incluyendo la distribución de longitud condicionada a la corrección y el rendimiento en un amplio espectro de presupuestos de tokens que van desde 2k hasta 32k. Primero, revelamos que el proceso de entrenamiento sigue un paradigma de dos etapas: adaptación de longitud y refinamiento del razonamiento. Posteriormente, realizamos extensos experimentos (aproximadamente 0.2 millones de horas de GPU) en un protocolo unificado, deconstruyendo los *prompts* de entrenamiento y las simulaciones (*rollouts*), la configuración de recompensas y las estrategias de optimización. En particular, un hallazgo clave es entrenar con *prompts* relativamente más fáciles, garantizando la densidad de señales de recompensa positivas y evitando así el colapso de longitud. Mientras tanto, el sesgo de longitud aprendido puede generalizarse entre dominios. Destilamos todos los hallazgos en ideas valiosas y pautas prácticas, y además los validamos en la serie Qwen3, que abarca desde 0.6B hasta 30B, demostrando su robustez y generalización.

English

Large Language Models (LLMs) consistently benefit from scaled Chain-of-Thought (CoT) reasoning, but also suffer from heavy computational overhead. To address this issue, efficient reasoning aims to incentivize short yet accurate thinking trajectories, typically through reward shaping with Reinforcement Learning (RL). In this paper, we systematically investigate the mechanics of efficient reasoning for LLMs. For comprehensive evaluation, we advocate for more fine-grained metrics, including length distribution conditioned on correctness and performance across a wide spectrum of token budgets ranging from 2k to 32k. First, we reveal that the training process follows a two-stage paradigm: length adaptation and reasoning refinement. After that, we conduct extensive experiments (about 0.2 million GPU hours) in a unified protocol, deconstructing training prompts and rollouts, reward shaping, and optimization strategies. In particular, a key finding is to train on relatively easier prompts, ensuring the density of positive reward signals and thus avoiding the length collapse. Meanwhile, the learned length bias can be generalized across domains. We distill all findings into valuable insights and practical guidelines, and further validate them across the Qwen3 series, ranging from 0.6B to 30B, demonstrating the robustness and generalization.

El Arte del Razonamiento Eficiente: Datos, Recompensa y Optimización

The Art of Efficient Reasoning: Data, Reward, and Optimization

Resumen

Support