ChatPaper.aiChatPaper

Effizientes Reinforcement Finetuning durch adaptives Curriculum Learning

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

April 7, 2025
Autoren: Taiwei Shi, Yiyang Wu, Linxin Song, Tianyi Zhou, Jieyu Zhao
cs.AI

Zusammenfassung

Reinforcement Finetuning (RFT) hat großes Potenzial gezeigt, um die mathematischen Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern, ist jedoch oft proben- und rechenineffizient und erfordert umfangreiches Training. In dieser Arbeit stellen wir AdaRFT (Adaptive Curriculum Reinforcement Finetuning) vor, eine Methode, die sowohl die Effizienz als auch die finale Genauigkeit von RFT durch adaptives Curriculum Learning erheblich verbessert. AdaRFT passt den Schwierigkeitsgrad der Trainingsprobleme dynamisch basierend auf den aktuellen Belohnungssignalen des Modells an und stellt sicher, dass das Modell kontinuierlich an Aufgaben trainiert, die herausfordernd, aber lösbar sind. Diese adaptive Stichprobenstrategie beschleunigt das Lernen, indem sie einen optimalen Schwierigkeitsbereich aufrechterhält und vermeidet, dass Rechenressourcen für Probleme verschwendet werden, die entweder zu einfach oder zu schwer sind. AdaRFT erfordert nur eine leichte Erweiterung standardmäßiger RFT-Algorithmen wie Proximal Policy Optimization (PPO), ohne die Belohnungsfunktion oder die Modellarchitektur zu verändern. Experimente mit Wettbewerbs-Level-Mathematikdatensätzen – einschließlich AMC-, AIME- und IMO-artiger Probleme – zeigen, dass AdaRFT sowohl die Trainingseffizienz als auch die logische Leistung signifikant verbessert. Wir evaluieren AdaRFT über mehrere Datenverteilungen und Modellgrößen hinweg und zeigen, dass es die Anzahl der Trainingsschritte um bis zu das 2-fache reduziert und die Genauigkeit beträchtlich steigert, wodurch ein skalierbareres und effektiveres RFT-Framework bereitgestellt wird.
English
Reinforcement finetuning (RFT) has shown great potential for enhancing the mathematical reasoning capabilities of large language models (LLMs), but it is often sample- and compute-inefficient, requiring extensive training. In this work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a method that significantly improves both the efficiency and final accuracy of RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the difficulty of training problems based on the model's recent reward signals, ensuring that the model consistently trains on tasks that are challenging but solvable. This adaptive sampling strategy accelerates learning by maintaining an optimal difficulty range, avoiding wasted computation on problems that are too easy or too hard. AdaRFT requires only a lightweight extension to standard RFT algorithms like Proximal Policy Optimization (PPO), without modifying the reward function or model architecture. Experiments on competition-level math datasets-including AMC, AIME, and IMO-style problems-demonstrate that AdaRFT significantly improves both training efficiency and reasoning performance. We evaluate AdaRFT across multiple data distributions and model sizes, showing that it reduces the number of training steps by up to 2x and improves accuracy by a considerable margin, offering a more scalable and effective RFT framework.

Summary

AI-Generated Summary

PDF92April 9, 2025