Trainiere lang, denke kurz: Curriculum Learning für effizientes Schließen
Train Long, Think Short: Curriculum Learning for Efficient Reasoning
August 12, 2025
papers.authors: Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem
cs.AI
papers.abstract
Aktuelle Arbeiten zur Verbesserung der Fähigkeiten von großen Sprachmodellen (LLMs) im Bereich des logischen Denkens haben die explizite Längenkontrolle als Mittel zur Begrenzung der Rechenkosten bei gleichzeitiger Wahrung der Genauigkeit eingeführt. Bisherige Ansätze stützen sich jedoch auf feste Trainingsbudgets, die den natürlichen Fortschritt von der Exploration zur Kompression während des Lernens nicht nutzen. In dieser Arbeit schlagen wir eine Curriculum-Learning-Strategie für die längenkontrollierte Argumentation unter Verwendung von Group Relative Policy Optimization (GRPO) vor. Unsere Methode beginnt mit großzügigen Token-Budgets und reduziert diese im Laufe des Trainings schrittweise, wodurch Modelle dazu angeregt werden, zunächst effektive Lösungsstrategien zu entdecken und diese dann in prägnantere Argumentationspfade zu verdichten. Wir erweitern GRPO um eine Belohnungsfunktion, die drei Signale ausbalanciert: Aufgabenkorrektheit (über Verifizierer-Feedback), Längeneffizienz und Formatierungseinhaltung (über strukturelle Tags). Experimente auf GSM8K, MATH500, SVAMP, College Math und GSM+ zeigen, dass das curriculum-basierte Training bei gleichem Endbudget durchweg feste Budget-Baselines übertrifft, mit höherer Genauigkeit und deutlich verbesserter Token-Effizienz. Wir untersuchen weiterhin die Auswirkungen der Belohnungsgewichtung und des Abklingplans und zeigen, dass progressive Einschränkungen als starke induktive Verzerrung für das Training effizienter Argumentationsmodelle dienen. Unser Code und unsere Checkpoints sind verfügbar unter: https://github.com/hammoudhasan/curriculum_grpo.
English
Recent work on enhancing the reasoning abilities of large language models
(LLMs) has introduced explicit length control as a means of constraining
computational cost while preserving accuracy. However, existing approaches rely
on fixed-length training budgets, which do not take advantage of the natural
progression from exploration to compression during learning. In this work, we
propose a curriculum learning strategy for length-controlled reasoning using
Group Relative Policy Optimization (GRPO). Our method starts with generous
token budgets and gradually tightens them over training, encouraging models to
first discover effective solution strategies and then distill them into more
concise reasoning traces. We augment GRPO with a reward function that balances
three signals: task correctness (via verifier feedback), length efficiency, and
formatting adherence (via structural tags). Experiments on GSM8K, MATH500,
SVAMP, College Math, and GSM+ demonstrate that curriculum-based training
consistently outperforms fixed-budget baselines at the same final budget,
achieving higher accuracy and significantly improved token efficiency. We
further ablate the impact of reward weighting and decay schedule design,
showing that progressive constraint serves as a powerful inductive bias for
training efficient reasoning models. Our code and checkpoints are released at:
https://github.com/hammoudhasan/curriculum_grpo.