Lernen Sie effizient zu schlussfolgern mit adaptiver belohnungsbasierter Längenformung

papers.abstract

Große Reasoning-Modelle (LRMs) haben bemerkenswerte Fähigkeiten bei der Lösung komplexer Probleme durch Reinforcement Learning (RL) gezeigt, insbesondere durch die Generierung langer Reasoning-Traces. Diese umfangreichen Ausgaben weisen jedoch oft erhebliche Redundanzen auf, was die Effizienz von LRMs einschränkt. In diesem Artikel untersuchen wir RL-basierte Ansätze zur Förderung der Reasoning-Effizienz. Konkret stellen wir zunächst ein einheitliches Framework vor, das verschiedene effiziente Reasoning-Methoden durch die Linse der längenbasierten Reward-Shaping-Formulierung darstellt. Aufbauend auf dieser Perspektive schlagen wir eine neuartige Length-bAsed StEp Reward-Shaping-Methode (LASER) vor, die eine Stufenfunktion als Belohnung verwendet, die durch eine Ziel-Länge gesteuert wird. LASER übertrifft bisherige Methoden und erreicht ein überlegenes Pareto-optimales Gleichgewicht zwischen Leistung und Effizienz. Anschließend erweitern wir LASER basierend auf zwei zentralen Intuitionen: (1) Das Reasoning-Verhalten des Modells entwickelt sich während des Trainings, was Belohnungsspezifikationen erfordert, die ebenfalls adaptiv und dynamisch sind; (2) Anstatt kürzere oder längere Chains of Thought (CoT) einheitlich zu fördern, postulieren wir, dass längenbasierte Reward-Shaping schwierigkeitsbewusst sein sollte, d.h., es sollte lange CoTs stärker für einfache Abfragen bestrafen. Dieser Ansatz soll eine Kombination aus schnellem und langsamem Denken ermöglichen, was zu einem besseren Gesamtkompromiss führt. Die resultierende Methode wird als LASER-D (Dynamic and Difficulty-aware) bezeichnet. Experimente auf DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B und DeepSeek-R1-Distill-Qwen-32B zeigen, dass unser Ansatz sowohl die Reasoning-Leistung als auch die Effizienz der Antwortlänge signifikant verbessert. Beispielsweise erzielen LASER-D und seine Variante eine Verbesserung von +6.1 auf AIME2024 bei gleichzeitiger Reduzierung der Token-Nutzung um 63%. Weitere Analysen zeigen, dass unsere RL-basierte Kompression prägnantere Reasoning-Muster mit weniger redundanten „Selbstreflexionen“ erzeugt. Ressourcen sind unter https://github.com/hkust-nlp/Laser verfügbar.

English

Large Reasoning Models (LRMs) have shown remarkable capabilities in solving complex problems through reinforcement learning (RL), particularly by generating long reasoning traces. However, these extended outputs often exhibit substantial redundancy, which limits the efficiency of LRMs. In this paper, we investigate RL-based approaches to promote reasoning efficiency. Specifically, we first present a unified framework that formulates various efficient reasoning methods through the lens of length-based reward shaping. Building on this perspective, we propose a novel Length-bAsed StEp Reward shaping method (LASER), which employs a step function as the reward, controlled by a target length. LASER surpasses previous methods, achieving a superior Pareto-optimal balance between performance and efficiency. Next, we further extend LASER based on two key intuitions: (1) The reasoning behavior of the model evolves during training, necessitating reward specifications that are also adaptive and dynamic; (2) Rather than uniformly encouraging shorter or longer chains of thought (CoT), we posit that length-based reward shaping should be difficulty-aware i.e., it should penalize lengthy CoTs more for easy queries. This approach is expected to facilitate a combination of fast and slow thinking, leading to a better overall tradeoff. The resulting method is termed LASER-D (Dynamic and Difficulty-aware). Experiments on DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B, and DeepSeek-R1-Distill-Qwen-32B show that our approach significantly enhances both reasoning performance and response length efficiency. For instance, LASER-D and its variant achieve a +6.1 improvement on AIME2024 while reducing token usage by 63%. Further analysis reveals our RL-based compression produces more concise reasoning patterns with less redundant "self-reflections". Resources are at https://github.com/hkust-nlp/Laser.

Lernen Sie effizient zu schlussfolgern mit adaptiver belohnungsbasierter Längenformung

Learn to Reason Efficiently with Adaptive Length-based Reward Shaping

papers.abstract

Support