Train Lang, Denk Kort: Curriculum Learning voor Efficiënt Redeneren
Train Long, Think Short: Curriculum Learning for Efficient Reasoning
August 12, 2025
Auteurs: Hasan Abed Al Kader Hammoud, Kumail Alhamoud, Abed Hammoud, Elie Bou-Zeid, Marzyeh Ghassemi, Bernard Ghanem
cs.AI
Samenvatting
Recent werk over het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs) heeft expliciete lengtecontrole geïntroduceerd als een manier om de rekencosten te beperken terwijl de nauwkeurigheid behouden blijft. Bestaande benaderingen vertrouwen echter op vaste-lengte trainingsbudgetten, die geen gebruik maken van de natuurlijke progressie van exploratie naar compressie tijdens het leren. In dit werk stellen we een curriculumleerstrategie voor voor lengte-gecontroleerd redeneren met behulp van Group Relative Policy Optimization (GRPO). Onze methode begint met royale tokenbudgetten en verstrakt deze geleidelijk tijdens de training, waardoor modellen eerst effectieve oplossingsstrategieën ontdekken en deze vervolgens destilleren tot meer beknopte redeneersporen. We verrijken GRPO met een beloningsfunctie die drie signalen in balans brengt: taakcorrectheid (via verificatorfeedback), lengte-efficiëntie en opmaaknaleving (via structurele tags). Experimenten op GSM8K, MATH500, SVAMP, College Math en GSM+ tonen aan dat curriculumgebaseerde training consistent beter presteert dan vaste-budget baseline-modellen bij hetzelfde uiteindelijke budget, met hogere nauwkeurigheid en aanzienlijk verbeterde token-efficiëntie. We onderzoeken verder de impact van beloningsweging en het ontwerp van het vervalschema, en laten zien dat progressieve beperking een krachtige inductieve bias vormt voor het trainen van efficiënte redeneermodellen. Onze code en checkpoints zijn vrijgegeven op: https://github.com/hammoudhasan/curriculum_grpo.
English
Recent work on enhancing the reasoning abilities of large language models
(LLMs) has introduced explicit length control as a means of constraining
computational cost while preserving accuracy. However, existing approaches rely
on fixed-length training budgets, which do not take advantage of the natural
progression from exploration to compression during learning. In this work, we
propose a curriculum learning strategy for length-controlled reasoning using
Group Relative Policy Optimization (GRPO). Our method starts with generous
token budgets and gradually tightens them over training, encouraging models to
first discover effective solution strategies and then distill them into more
concise reasoning traces. We augment GRPO with a reward function that balances
three signals: task correctness (via verifier feedback), length efficiency, and
formatting adherence (via structural tags). Experiments on GSM8K, MATH500,
SVAMP, College Math, and GSM+ demonstrate that curriculum-based training
consistently outperforms fixed-budget baselines at the same final budget,
achieving higher accuracy and significantly improved token efficiency. We
further ablate the impact of reward weighting and decay schedule design,
showing that progressive constraint serves as a powerful inductive bias for
training efficient reasoning models. Our code and checkpoints are released at:
https://github.com/hammoudhasan/curriculum_grpo.