Finetuning efficace par renforcement via un apprentissage curriculaire adaptatif
Efficient Reinforcement Finetuning via Adaptive Curriculum Learning
April 7, 2025
Auteurs: Taiwei Shi, Yiyang Wu, Linxin Song, Tianyi Zhou, Jieyu Zhao
cs.AI
Résumé
Le réglage fin par renforcement (Reinforcement Finetuning, RFT) a montré un grand potentiel pour améliorer les capacités de raisonnement mathématique des grands modèles de langage (LLMs), mais il est souvent peu efficace en termes d'échantillons et de calcul, nécessitant un entraînement extensif. Dans ce travail, nous introduisons AdaRFT (Adaptive Curriculum Reinforcement Finetuning), une méthode qui améliore significativement à la fois l'efficacité et la précision finale du RFT grâce à un apprentissage curriculaire adaptatif. AdaRFT ajuste dynamiquement la difficulté des problèmes d'entraînement en fonction des signaux de récompense récents du modèle, garantissant que le modèle s'entraîne constamment sur des tâches qui sont à la fois stimulantes et résolubles. Cette stratégie d'échantillonnage adaptatif accélère l'apprentissage en maintenant une plage de difficulté optimale, évitant ainsi le gaspillage de calcul sur des problèmes trop faciles ou trop difficiles. AdaRFT ne nécessite qu'une extension légère aux algorithmes RFT standard comme l'Optimisation de Politique Proximale (Proximal Policy Optimization, PPO), sans modifier la fonction de récompense ou l'architecture du modèle. Les expériences sur des ensembles de données mathématiques de niveau compétition, incluant des problèmes de style AMC, AIME et IMO, démontrent qu'AdaRFT améliore significativement à la fois l'efficacité de l'entraînement et les performances de raisonnement. Nous évaluons AdaRFT sur plusieurs distributions de données et tailles de modèles, montrant qu'il réduit le nombre d'étapes d'entraînement jusqu'à 2x et améliore la précision de manière considérable, offrant ainsi un cadre RFT plus scalable et efficace.
English
Reinforcement finetuning (RFT) has shown great potential for enhancing the
mathematical reasoning capabilities of large language models (LLMs), but it is
often sample- and compute-inefficient, requiring extensive training. In this
work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a
method that significantly improves both the efficiency and final accuracy of
RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the
difficulty of training problems based on the model's recent reward signals,
ensuring that the model consistently trains on tasks that are challenging but
solvable. This adaptive sampling strategy accelerates learning by maintaining
an optimal difficulty range, avoiding wasted computation on problems that are
too easy or too hard. AdaRFT requires only a lightweight extension to standard
RFT algorithms like Proximal Policy Optimization (PPO), without modifying the
reward function or model architecture. Experiments on competition-level math
datasets-including AMC, AIME, and IMO-style problems-demonstrate that AdaRFT
significantly improves both training efficiency and reasoning performance. We
evaluate AdaRFT across multiple data distributions and model sizes, showing
that it reduces the number of training steps by up to 2x and improves accuracy
by a considerable margin, offering a more scalable and effective RFT framework.Summary
AI-Generated Summary