Aprende a razonar eficientemente con modelado de recompensas adaptativo basado en longitud
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
May 21, 2025
Autores: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI
Resumen
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades notables para resolver problemas complejos mediante el aprendizaje por refuerzo (RL, Reinforcement Learning), particularmente al generar trazas de razonamiento extensas. Sin embargo, estas salidas prolongadas suelen presentar una redundancia sustancial, lo que limita la eficiencia de los LRMs. En este artículo, investigamos enfoques basados en RL para promover la eficiencia en el razonamiento. Específicamente, primero presentamos un marco unificado que formula diversos métodos de razonamiento eficiente a través de la perspectiva de la configuración de recompensas basada en la longitud. Basándonos en esta perspectiva, proponemos un nuevo método de configuración de recompensas basado en la longitud mediante una función escalonada (LASER, Length-bAsed StEp Reward shaping), que utiliza una función escalonada como recompensa, controlada por una longitud objetivo. LASER supera a métodos anteriores, logrando un equilibrio Pareto-óptimo superior entre rendimiento y eficiencia. A continuación, extendemos aún más LASER basándonos en dos intuiciones clave: (1) El comportamiento de razonamiento del modelo evoluciona durante el entrenamiento, lo que requiere especificaciones de recompensa que también sean adaptativas y dinámicas; (2) En lugar de fomentar uniformemente cadenas de pensamiento (CoT, Chains of Thought) más cortas o más largas, postulamos que la configuración de recompensas basada en la longitud debe ser consciente de la dificultad, es decir, debería penalizar más las CoT extensas para consultas fáciles. Se espera que este enfoque facilite una combinación de pensamiento rápido y lento, lo que conduciría a un mejor equilibrio general. El método resultante se denomina LASER-D (Dinámico y Consciente de la Dificultad). Los experimentos en DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B y DeepSeek-R1-Distill-Qwen-32B muestran que nuestro enfoque mejora significativamente tanto el rendimiento del razonamiento como la eficiencia en la longitud de las respuestas. Por ejemplo, LASER-D y su variante logran una mejora de +6.1 en AIME2024 mientras reducen el uso de tokens en un 63%. Un análisis adicional revela que nuestra compresión basada en RL produce patrones de razonamiento más concisos con menos "autorreflexiones" redundantes. Los recursos están disponibles en https://github.com/hkust-nlp/Laser.
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving
complex problems through reinforcement learning (RL), particularly by
generating long reasoning traces. However, these extended outputs often exhibit
substantial redundancy, which limits the efficiency of LRMs. In this paper, we
investigate RL-based approaches to promote reasoning efficiency. Specifically,
we first present a unified framework that formulates various efficient
reasoning methods through the lens of length-based reward shaping. Building on
this perspective, we propose a novel Length-bAsed StEp Reward shaping method
(LASER), which employs a step function as the reward, controlled by a target
length. LASER surpasses previous methods, achieving a superior Pareto-optimal
balance between performance and efficiency. Next, we further extend LASER based
on two key intuitions: (1) The reasoning behavior of the model evolves during
training, necessitating reward specifications that are also adaptive and
dynamic; (2) Rather than uniformly encouraging shorter or longer chains of
thought (CoT), we posit that length-based reward shaping should be
difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries.
This approach is expected to facilitate a combination of fast and slow
thinking, leading to a better overall tradeoff. The resulting method is termed
LASER-D (Dynamic and Difficulty-aware). Experiments on
DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and
DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both
reasoning performance and response length efficiency. For instance, LASER-D and
its variant achieve a +6.1 improvement on AIME2024 while reducing token usage
by 63%. Further analysis reveals our RL-based compression produces more concise
reasoning patterns with less redundant "self-reflections". Resources are at
https://github.com/hkust-nlp/Laser.Summary
AI-Generated Summary