Apprenez à raisonner efficacement grâce à un façonnage de récompense adaptatif basé sur la longueur
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
May 21, 2025
Auteurs: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI
Résumé
Les modèles de raisonnement à grande échelle (LRMs) ont démontré des capacités remarquables à résoudre des problèmes complexes grâce à l'apprentissage par renforcement (RL), en particulier en générant des traces de raisonnement longues. Cependant, ces sorties étendues présentent souvent une redondance substantielle, ce qui limite l'efficacité des LRMs. Dans cet article, nous explorons des approches basées sur le RL pour promouvoir l'efficacité du raisonnement. Plus précisément, nous présentons d'abord un cadre unifié qui formule diverses méthodes de raisonnement efficace à travers le prisme de la récompense basée sur la longueur. Sur la base de cette perspective, nous proposons une nouvelle méthode de récompense en escalier basée sur la longueur (LASER), qui utilise une fonction en escalier comme récompense, contrôlée par une longueur cible. LASER surpasse les méthodes précédentes, atteignant un équilibre Pareto-optimal supérieur entre performance et efficacité. Ensuite, nous étendons davantage LASER en nous appuyant sur deux intuitions clés : (1) Le comportement de raisonnement du modèle évolue pendant l'entraînement, nécessitant des spécifications de récompense adaptatives et dynamiques ; (2) Plutôt que d'encourager uniformément des chaînes de pensée (CoT) plus courtes ou plus longues, nous postulons que la récompense basée sur la longueur devrait être consciente de la difficulté, c'est-à-dire qu'elle devrait pénaliser davantage les CoT longues pour les requêtes faciles. Cette approche devrait faciliter une combinaison de pensée rapide et lente, conduisant à un meilleur compromis global. La méthode résultante est appelée LASER-D (Dynamique et Consciente de la Difficulté). Les expériences sur DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B et DeepSeek-R1-Distill-Qwen-32B montrent que notre approche améliore significativement à la fois la performance de raisonnement et l'efficacité de la longueur des réponses. Par exemple, LASER-D et sa variante obtiennent une amélioration de +6.1 sur AIME2024 tout en réduisant l'utilisation de tokens de 63%. Une analyse plus approfondie révèle que notre compression basée sur le RL produit des modèles de raisonnement plus concis avec moins de redondance de "réflexions personnelles". Les ressources sont disponibles à l'adresse https://github.com/hkust-nlp/Laser.
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving
complex problems through reinforcement learning (RL), particularly by
generating long reasoning traces. However, these extended outputs often exhibit
substantial redundancy, which limits the efficiency of LRMs. In this paper, we
investigate RL-based approaches to promote reasoning efficiency. Specifically,
we first present a unified framework that formulates various efficient
reasoning methods through the lens of length-based reward shaping. Building on
this perspective, we propose a novel Length-bAsed StEp Reward shaping method
(LASER), which employs a step function as the reward, controlled by a target
length. LASER surpasses previous methods, achieving a superior Pareto-optimal
balance between performance and efficiency. Next, we further extend LASER based
on two key intuitions: (1) The reasoning behavior of the model evolves during
training, necessitating reward specifications that are also adaptive and
dynamic; (2) Rather than uniformly encouraging shorter or longer chains of
thought (CoT), we posit that length-based reward shaping should be
difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries.
This approach is expected to facilitate a combination of fast and slow
thinking, leading to a better overall tradeoff. The resulting method is termed
LASER-D (Dynamic and Difficulty-aware). Experiments on
DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and
DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both
reasoning performance and response length efficiency. For instance, LASER-D and
its variant achieve a +6.1 improvement on AIME2024 while reducing token usage
by 63%. Further analysis reveals our RL-based compression produces more concise
reasoning patterns with less redundant "self-reflections". Resources are at
https://github.com/hkust-nlp/Laser.Summary
AI-Generated Summary