ChatPaper.aiChatPaper

適応的な長さベースの報酬形成による効率的な推論学習

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

May 21, 2025
著者: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI

要旨

大規模推論モデル(LRM)は、特に長い推論トレースを生成することで、強化学習(RL)を通じて複雑な問題を解決する際に顕著な能力を示しています。しかし、これらの拡張された出力にはしばしば大幅な冗長性が見られ、LRMの効率を制限しています。本論文では、推論効率を促進するためのRLベースのアプローチを調査します。具体的には、まず、長さベースの報酬形成を通じて様々な効率的な推論手法を定式化する統一フレームワークを提示します。この視点に基づいて、目標長によって制御されるステップ関数を報酬として採用する新規のLength-bAsed StEp Reward shaping法(LASER)を提案します。LASERは従来の手法を超え、性能と効率の間で優れたパレート最適なバランスを達成します。次に、LASERをさらに拡張するために、2つの重要な直感に基づいて進めます:(1)モデルの推論行動はトレーニング中に進化するため、適応的で動的な報酬指定が必要である;(2)思考の連鎖(CoT)を一律に短くまたは長くするのではなく、長さベースの報酬形成は難易度を考慮すべきである、つまり、簡単なクエリに対しては長いCoTをより強くペナルティを課すべきである。このアプローチは、速い思考と遅い思考の組み合わせを促進し、全体的により良いトレードオフをもたらすことが期待されます。結果として得られた手法はLASER-D(動的かつ難易度を考慮した)と名付けられています。DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、およびDeepSeek-R1-Distill-Qwen-32Bでの実験により、我々のアプローチが推論性能と応答長の効率を大幅に向上させることが示されました。例えば、LASER-Dとその変種は、AIME2024で+6.1の改善を達成し、トークン使用量を63%削減しました。さらに分析すると、我々のRLベースの圧縮が、冗長な「自己反映」を減らし、より簡潔な推論パターンを生成することが明らかになりました。リソースはhttps://github.com/hkust-nlp/Laserにあります。
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving complex problems through reinforcement learning (RL), particularly by generating long reasoning traces. However, these extended outputs often exhibit substantial redundancy, which limits the efficiency of LRMs. In this paper, we investigate RL-based approaches to promote reasoning efficiency. Specifically, we first present a unified framework that formulates various efficient reasoning methods through the lens of length-based reward shaping. Building on this perspective, we propose a novel Length-bAsed StEp Reward shaping method (LASER), which employs a step function as the reward, controlled by a target length. LASER surpasses previous methods, achieving a superior Pareto-optimal balance between performance and efficiency. Next, we further extend LASER based on two key intuitions: (1) The reasoning behavior of the model evolves during training, necessitating reward specifications that are also adaptive and dynamic; (2) Rather than uniformly encouraging shorter or longer chains of thought (CoT), we posit that length-based reward shaping should be difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries. This approach is expected to facilitate a combination of fast and slow thinking, leading to a better overall tradeoff. The resulting method is termed LASER-D (Dynamic and Difficulty-aware). Experiments on DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both reasoning performance and response length efficiency. For instance, LASER-D and its variant achieve a +6.1 improvement on AIME2024 while reducing token usage by 63%. Further analysis reveals our RL-based compression produces more concise reasoning patterns with less redundant "self-reflections". Resources are at https://github.com/hkust-nlp/Laser.

Summary

AI-Generated Summary

PDF281May 22, 2025