Finetuning efficace par renforcement via un apprentissage curriculaire adaptatif

papers.abstract

Le réglage fin par renforcement (Reinforcement Finetuning, RFT) a montré un grand potentiel pour améliorer les capacités de raisonnement mathématique des grands modèles de langage (LLMs), mais il est souvent peu efficace en termes d'échantillons et de calcul, nécessitant un entraînement extensif. Dans ce travail, nous introduisons AdaRFT (Adaptive Curriculum Reinforcement Finetuning), une méthode qui améliore significativement à la fois l'efficacité et la précision finale du RFT grâce à un apprentissage curriculaire adaptatif. AdaRFT ajuste dynamiquement la difficulté des problèmes d'entraînement en fonction des signaux de récompense récents du modèle, garantissant que le modèle s'entraîne constamment sur des tâches qui sont à la fois stimulantes et résolubles. Cette stratégie d'échantillonnage adaptatif accélère l'apprentissage en maintenant une plage de difficulté optimale, évitant ainsi le gaspillage de calcul sur des problèmes trop faciles ou trop difficiles. AdaRFT ne nécessite qu'une extension légère aux algorithmes RFT standard comme l'Optimisation de Politique Proximale (Proximal Policy Optimization, PPO), sans modifier la fonction de récompense ou l'architecture du modèle. Les expériences sur des ensembles de données mathématiques de niveau compétition, incluant des problèmes de style AMC, AIME et IMO, démontrent qu'AdaRFT améliore significativement à la fois l'efficacité de l'entraînement et les performances de raisonnement. Nous évaluons AdaRFT sur plusieurs distributions de données et tailles de modèles, montrant qu'il réduit le nombre d'étapes d'entraînement jusqu'à 2x et améliore la précision de manière considérable, offrant ainsi un cadre RFT plus scalable et efficace.

English

Reinforcement finetuning (RFT) has shown great potential for enhancing the mathematical reasoning capabilities of large language models (LLMs), but it is often sample- and compute-inefficient, requiring extensive training. In this work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a method that significantly improves both the efficiency and final accuracy of RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the difficulty of training problems based on the model's recent reward signals, ensuring that the model consistently trains on tasks that are challenging but solvable. This adaptive sampling strategy accelerates learning by maintaining an optimal difficulty range, avoiding wasted computation on problems that are too easy or too hard. AdaRFT requires only a lightweight extension to standard RFT algorithms like Proximal Policy Optimization (PPO), without modifying the reward function or model architecture. Experiments on competition-level math datasets-including AMC, AIME, and IMO-style problems-demonstrate that AdaRFT significantly improves both training efficiency and reasoning performance. We evaluate AdaRFT across multiple data distributions and model sizes, showing that it reduces the number of training steps by up to 2x and improves accuracy by a considerable margin, offering a more scalable and effective RFT framework.

Finetuning efficace par renforcement via un apprentissage curriculaire adaptatif

Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

papers.abstract

Support