Aprenda a Raciocinar de Forma Eficiente com Modelagem de Recompensas Adaptativa Baseada em Comprimento
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
May 21, 2025
Autores: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades notáveis na resolução de problemas complexos por meio de aprendizado por reforço (RL), especialmente ao gerar longos traços de raciocínio. No entanto, essas saídas extensas frequentemente apresentam redundância substancial, o que limita a eficiência dos LRMs. Neste artigo, investigamos abordagens baseadas em RL para promover a eficiência do raciocínio. Especificamente, primeiro apresentamos um framework unificado que formula vários métodos de raciocínio eficiente através da lente da modelagem de recompensa baseada em comprimento. Com base nessa perspectiva, propomos um novo método de modelagem de recompensa baseada em comprimento e passo (LASER), que emprega uma função degrau como recompensa, controlada por um comprimento alvo. O LASER supera métodos anteriores, alcançando um equilíbrio Pareto-ótimo superior entre desempenho e eficiência. Em seguida, estendemos ainda mais o LASER com base em duas intuições principais: (1) O comportamento de raciocínio do modelo evolui durante o treinamento, exigindo especificações de recompensa que também sejam adaptativas e dinâmicas; (2) Em vez de encorajar uniformemente cadeias de pensamento (CoT) mais curtas ou mais longas, postulamos que a modelagem de recompensa baseada em comprimento deve ser consciente da dificuldade, ou seja, deve penalizar CoTs longos mais severamente para consultas fáceis. Essa abordagem deve facilitar uma combinação de pensamento rápido e lento, levando a um melhor equilíbrio geral. O método resultante é denominado LASER-D (Dinâmico e Consciente da Dificuldade). Experimentos nos modelos DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B e DeepSeek-R1-Distill-Qwen-32B mostram que nossa abordagem melhora significativamente tanto o desempenho do raciocínio quanto a eficiência do comprimento da resposta. Por exemplo, o LASER-D e sua variante alcançam uma melhoria de +6.1 no AIME2024 enquanto reduzem o uso de tokens em 63%. Análises adicionais revelam que nossa compressão baseada em RL produz padrões de raciocínio mais concisos com menos "auto-reflexões" redundantes. Os recursos estão disponíveis em https://github.com/hkust-nlp/Laser.
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving
complex problems through reinforcement learning (RL), particularly by
generating long reasoning traces. However, these extended outputs often exhibit
substantial redundancy, which limits the efficiency of LRMs. In this paper, we
investigate RL-based approaches to promote reasoning efficiency. Specifically,
we first present a unified framework that formulates various efficient
reasoning methods through the lens of length-based reward shaping. Building on
this perspective, we propose a novel Length-bAsed StEp Reward shaping method
(LASER), which employs a step function as the reward, controlled by a target
length. LASER surpasses previous methods, achieving a superior Pareto-optimal
balance between performance and efficiency. Next, we further extend LASER based
on two key intuitions: (1) The reasoning behavior of the model evolves during
training, necessitating reward specifications that are also adaptive and
dynamic; (2) Rather than uniformly encouraging shorter or longer chains of
thought (CoT), we posit that length-based reward shaping should be
difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries.
This approach is expected to facilitate a combination of fast and slow
thinking, leading to a better overall tradeoff. The resulting method is termed
LASER-D (Dynamic and Difficulty-aware). Experiments on
DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and
DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both
reasoning performance and response length efficiency. For instance, LASER-D and
its variant achieve a +6.1 improvement on AIME2024 while reducing token usage
by 63%. Further analysis reveals our RL-based compression produces more concise
reasoning patterns with less redundant "self-reflections". Resources are at
https://github.com/hkust-nlp/Laser.