Efficiënte Reinforcement Finetuning via Adaptief Curriculum Leren
Efficient Reinforcement Finetuning via Adaptive Curriculum Learning
April 7, 2025
Auteurs: Taiwei Shi, Yiyang Wu, Linxin Song, Tianyi Zhou, Jieyu Zhao
cs.AI
Samenvatting
Reinforcement finetuning (RFT) heeft groot potentieel getoond voor het verbeteren van de wiskundige redeneervaardigheden van grote taalmodelen (LLMs), maar het is vaak inefficiënt wat betreft steekproeven en rekenkracht, omdat het uitgebreide training vereist. In dit werk introduceren we AdaRFT (Adaptive Curriculum Reinforcement Finetuning), een methode die zowel de efficiëntie als de uiteindelijke nauwkeurigheid van RFT aanzienlijk verbetert door middel van adaptief curriculumleren. AdaRFT past dynamisch de moeilijkheidsgraad van trainingsproblemen aan op basis van de recente beloningssignalen van het model, waardoor ervoor wordt gezorgd dat het model consistent traint op taken die uitdagend maar oplosbaar zijn. Deze adaptieve steekproefstrategie versnelt het leerproces door een optimale moeilijkheidsgraad te handhaven, waardoor verspilde rekenkracht op problemen die te makkelijk of te moeilijk zijn, wordt vermeden. AdaRFT vereist slechts een lichte uitbreiding van standaard RFT-algoritmen zoals Proximal Policy Optimization (PPO), zonder de beloningsfunctie of modelarchitectuur aan te passen. Experimenten op wiskundige datasets van wedstrijdniveau – waaronder AMC, AIME en IMO-stijl problemen – tonen aan dat AdaRFT zowel de trainingsefficiëntie als de redeneerprestaties aanzienlijk verbetert. We evalueren AdaRFT over meerdere dataverdelingen en modelgroottes, waarbij we aantonen dat het het aantal trainingsstappen tot wel 2x vermindert en de nauwkeurigheid aanzienlijk verbetert, wat een schaalbaarder en effectiever RFT-framework biedt.
English
Reinforcement finetuning (RFT) has shown great potential for enhancing the
mathematical reasoning capabilities of large language models (LLMs), but it is
often sample- and compute-inefficient, requiring extensive training. In this
work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a
method that significantly improves both the efficiency and final accuracy of
RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the
difficulty of training problems based on the model's recent reward signals,
ensuring that the model consistently trains on tasks that are challenging but
solvable. This adaptive sampling strategy accelerates learning by maintaining
an optimal difficulty range, avoiding wasted computation on problems that are
too easy or too hard. AdaRFT requires only a lightweight extension to standard
RFT algorithms like Proximal Policy Optimization (PPO), without modifying the
reward function or model architecture. Experiments on competition-level math
datasets-including AMC, AIME, and IMO-style problems-demonstrate that AdaRFT
significantly improves both training efficiency and reasoning performance. We
evaluate AdaRFT across multiple data distributions and model sizes, showing
that it reduces the number of training steps by up to 2x and improves accuracy
by a considerable margin, offering a more scalable and effective RFT framework.Summary
AI-Generated Summary