Lernen Sie effizient zu schlussfolgern mit adaptiver belohnungsbasierter Längenformung
Learn to Reason Efficiently with Adaptive Length-based Reward Shaping
May 21, 2025
papers.authors: Wei Liu, Ruochen Zhou, Yiyun Deng, Yuzhen Huang, Junteng Liu, Yuntian Deng, Yizhe Zhang, Junxian He
cs.AI
papers.abstract
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Fähigkeiten bei der Lösung komplexer Probleme durch Reinforcement Learning (RL) gezeigt, insbesondere durch die Generierung langer Reasoning-Traces. Diese umfangreichen Ausgaben weisen jedoch oft erhebliche Redundanzen auf, was die Effizienz von LRMs einschränkt. In diesem Artikel untersuchen wir RL-basierte Ansätze zur Förderung der Reasoning-Effizienz. Konkret stellen wir zunächst ein einheitliches Framework vor, das verschiedene effiziente Reasoning-Methoden durch die Linse der längenbasierten Reward-Shaping-Formulierung darstellt. Aufbauend auf dieser Perspektive schlagen wir eine neuartige Length-bAsed StEp Reward-Shaping-Methode (LASER) vor, die eine Stufenfunktion als Belohnung verwendet, die durch eine Ziel-Länge gesteuert wird. LASER übertrifft bisherige Methoden und erreicht ein überlegenes Pareto-optimales Gleichgewicht zwischen Leistung und Effizienz. Anschließend erweitern wir LASER basierend auf zwei zentralen Intuitionen: (1) Das Reasoning-Verhalten des Modells entwickelt sich während des Trainings, was Belohnungsspezifikationen erfordert, die ebenfalls adaptiv und dynamisch sind; (2) Anstatt kürzere oder längere Chains of Thought (CoT) einheitlich zu fördern, postulieren wir, dass längenbasierte Reward-Shaping schwierigkeitsbewusst sein sollte, d.h., es sollte lange CoTs stärker für einfache Abfragen bestrafen. Dieser Ansatz soll eine Kombination aus schnellem und langsamem Denken ermöglichen, was zu einem besseren Gesamtkompromiss führt. Die resultierende Methode wird als LASER-D (Dynamic and Difficulty-aware) bezeichnet. Experimente auf DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B und DeepSeek-R1-Distill-Qwen-32B zeigen, dass unser Ansatz sowohl die Reasoning-Leistung als auch die Effizienz der Antwortlänge signifikant verbessert. Beispielsweise erzielen LASER-D und seine Variante eine Verbesserung von +6.1 auf AIME2024 bei gleichzeitiger Reduzierung der Token-Nutzung um 63%. Weitere Analysen zeigen, dass unsere RL-basierte Kompression prägnantere Reasoning-Muster mit weniger redundanten „Selbstreflexionen“ erzeugt. Ressourcen sind unter https://github.com/hkust-nlp/Laser verfügbar.
English
Large Reasoning Models (LRMs) have shown remarkable capabilities in solving
complex problems through reinforcement learning (RL), particularly by
generating long reasoning traces. However, these extended outputs often exhibit
substantial redundancy, which limits the efficiency of LRMs. In this paper, we
investigate RL-based approaches to promote reasoning efficiency. Specifically,
we first present a unified framework that formulates various efficient
reasoning methods through the lens of length-based reward shaping. Building on
this perspective, we propose a novel Length-bAsed StEp Reward shaping method
(LASER), which employs a step function as the reward, controlled by a target
length. LASER surpasses previous methods, achieving a superior Pareto-optimal
balance between performance and efficiency. Next, we further extend LASER based
on two key intuitions: (1) The reasoning behavior of the model evolves during
training, necessitating reward specifications that are also adaptive and
dynamic; (2) Rather than uniformly encouraging shorter or longer chains of
thought (CoT), we posit that length-based reward shaping should be
difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries.
This approach is expected to facilitate a combination of fast and slow
thinking, leading to a better overall tradeoff. The resulting method is termed
LASER-D (Dynamic and Difficulty-aware). Experiments on
DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and
DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both
reasoning performance and response length efficiency. For instance, LASER-D and
its variant achieve a +6.1 improvement on AIME2024 while reducing token usage
by 63%. Further analysis reveals our RL-based compression produces more concise
reasoning patterns with less redundant "self-reflections". Resources are at
https://github.com/hkust-nlp/Laser.