Efficiënte Reinforcement Finetuning via Adaptief Curriculum Leren

Samenvatting

Reinforcement finetuning (RFT) heeft groot potentieel getoond voor het verbeteren van de wiskundige redeneervaardigheden van grote taalmodelen (LLMs), maar het is vaak inefficiënt wat betreft steekproeven en rekenkracht, omdat het uitgebreide training vereist. In dit werk introduceren we AdaRFT (Adaptive Curriculum Reinforcement Finetuning), een methode die zowel de efficiëntie als de uiteindelijke nauwkeurigheid van RFT aanzienlijk verbetert door middel van adaptief curriculumleren. AdaRFT past dynamisch de moeilijkheidsgraad van trainingsproblemen aan op basis van de recente beloningssignalen van het model, waardoor ervoor wordt gezorgd dat het model consistent traint op taken die uitdagend maar oplosbaar zijn. Deze adaptieve steekproefstrategie versnelt het leerproces door een optimale moeilijkheidsgraad te handhaven, waardoor verspilde rekenkracht op problemen die te makkelijk of te moeilijk zijn, wordt vermeden. AdaRFT vereist slechts een lichte uitbreiding van standaard RFT-algoritmen zoals Proximal Policy Optimization (PPO), zonder de beloningsfunctie of modelarchitectuur aan te passen. Experimenten op wiskundige datasets van wedstrijdniveau – waaronder AMC, AIME en IMO-stijl problemen – tonen aan dat AdaRFT zowel de trainingsefficiëntie als de redeneerprestaties aanzienlijk verbetert. We evalueren AdaRFT over meerdere dataverdelingen en modelgroottes, waarbij we aantonen dat het het aantal trainingsstappen tot wel 2x vermindert en de nauwkeurigheid aanzienlijk verbetert, wat een schaalbaarder en effectiever RFT-framework biedt.

English

Reinforcement finetuning (RFT) has shown great potential for enhancing the mathematical reasoning capabilities of large language models (LLMs), but it is often sample- and compute-inefficient, requiring extensive training. In this work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a method that significantly improves both the efficiency and final accuracy of RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the difficulty of training problems based on the model's recent reward signals, ensuring that the model consistently trains on tasks that are challenging but solvable. This adaptive sampling strategy accelerates learning by maintaining an optimal difficulty range, avoiding wasted computation on problems that are too easy or too hard. AdaRFT requires only a lightweight extension to standard RFT algorithms like Proximal Policy Optimization (PPO), without modifying the reward function or model architecture. Experiments on competition-level math datasets-including AMC, AIME, and IMO-style problems-demonstrate that AdaRFT significantly improves both training efficiency and reasoning performance. We evaluate AdaRFT across multiple data distributions and model sizes, showing that it reduces the number of training steps by up to 2x and improves accuracy by a considerable margin, offering a more scalable and effective RFT framework.

Efficiënte Reinforcement Finetuning via Adaptief Curriculum Leren

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

Samenvatting

Support