ChatPaper.aiChatPaper

Leer efficiënt redeneren met adaptieve beloningsvorming op basis van lengte

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

May 21, 2025
Auteurs: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI

Samenvatting

Large Reasoning Models (LRMs) hebben opmerkelijke capaciteiten getoond bij het oplossen van complexe problemen door middel van reinforcement learning (RL), met name door het genereren van lange redeneersporen. Deze uitgebreide uitvoer vertoont echter vaak aanzienlijke redundantie, wat de efficiëntie van LRMs beperkt. In dit artikel onderzoeken we RL-gebaseerde benaderingen om de redeneerefficiëntie te bevorderen. Specifiek presenteren we eerst een uniform raamwerk dat verschillende efficiënte redeneermethoden formuleert vanuit het perspectief van lengtegebaseerde beloningsvorming. Op basis van dit perspectief stellen we een nieuwe Length-bAsed StEp Reward shaping-methode (LASER) voor, die een stapfunctie gebruikt als beloning, gecontroleerd door een doel-lengte. LASER overtreft eerdere methoden en bereikt een superieur Pareto-optimaal evenwicht tussen prestaties en efficiëntie. Vervolgens breiden we LASER verder uit op basis van twee belangrijke intuïties: (1) Het redeneergedrag van het model evolueert tijdens de training, wat beloningsspecificaties vereist die ook adaptief en dynamisch zijn; (2) In plaats van uniform kortere of langere ketens van gedachten (CoT) aan te moedigen, stellen we dat lengtegebaseerde beloningsvorming moeilijkheidsbewust moet zijn, d.w.z. dat het lange CoTs meer moet bestraffen voor eenvoudige vragen. Deze benadering zou een combinatie van snel en langzaam denken moeten faciliteren, wat leidt tot een betere algehele afweging. De resulterende methode wordt LASER-D (Dynamic and Difficulty-aware) genoemd. Experimenten op DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B en DeepSeek-R1-Distill-Qwen-32B tonen aan dat onze aanpak zowel de redeneerprestaties als de efficiëntie van de responslengte aanzienlijk verbetert. Zo behalen LASER-D en zijn variant bijvoorbeeld een verbetering van +6.1 op AIME2024 terwijl het tokengebruik met 63% wordt verminderd. Verdere analyse toont aan dat onze RL-gebaseerde compressie meer beknopte redeneerpatronen produceert met minder redundante "zelfreflecties". Bronnen zijn beschikbaar op https://github.com/hkust-nlp/Laser.
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving complex problems through reinforcement learning (RL), particularly by generating long reasoning traces. However, these extended outputs often exhibit substantial redundancy, which limits the efficiency of LRMs. In this paper, we investigate RL-based approaches to promote reasoning efficiency. Specifically, we first present a unified framework that formulates various efficient reasoning methods through the lens of length-based reward shaping. Building on this perspective, we propose a novel Length-bAsed StEp Reward shaping method (LASER), which employs a step function as the reward, controlled by a target length. LASER surpasses previous methods, achieving a superior Pareto-optimal balance between performance and efficiency. Next, we further extend LASER based on two key intuitions: (1) The reasoning behavior of the model evolves during training, necessitating reward specifications that are also adaptive and dynamic; (2) Rather than uniformly encouraging shorter or longer chains of thought (CoT), we posit that length-based reward shaping should be difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries. This approach is expected to facilitate a combination of fast and slow thinking, leading to a better overall tradeoff. The resulting method is termed LASER-D (Dynamic and Difficulty-aware). Experiments on DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both reasoning performance and response length efficiency. For instance, LASER-D and its variant achieve a +6.1 improvement on AIME2024 while reducing token usage by 63%. Further analysis reveals our RL-based compression produces more concise reasoning patterns with less redundant "self-reflections". Resources are at https://github.com/hkust-nlp/Laser.
PDF343May 22, 2025