Apprentissage de Problèmes Difficiles en RL par Fine-tuning Guidé par Référence
Learn Hard Problems During RL with Reference Guided Fine-tuning
March 1, 2026
Auteurs: Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai
cs.AI
Résumé
L'apprentissage par renforcement (RL) pour le raisonnement mathématique peut souffrir de la parcimonie des récompenses : pour les problèmes difficiles, le LLM ne parvient pas à échantillonner de trajectoires correctes, empêchant le RL de recevoir un retour positif significatif. Parallèlement, il existe souvent des solutions de référence rédigées par des humains accompagnant le problème (par exemple, les problèmes d'AoPS), mais un fine-tuning direct sur ces solutions n'offre aucun avantage car les modèles peinent souvent à imiter les preuves humaines qui sortent de leur propre distribution de raisonnement.
Nous présentons le *Reference-Guided Fine-Tuning* (ReGFT), une méthode simple et efficace qui utilise les solutions de référence humaines pour synthétiser des trajectoires positives sur des problèmes difficiles et entraîne le modèle sur celles-ci avant le RL. Pour chaque problème, nous fournissons au modèle une solution de référence partielle et le laissons générer sa propre trace de raisonnement, garantissant que les trajectoires résultantes restent dans l'espace de raisonnement du modèle tout en bénéficiant du guidage par référence.
Le fine-tuning sur ces trajectoires guidées par référence augmente le nombre de problèmes résolubles et produit un point de contrôle qui reçoit davantage de récompenses positives pendant le RL. Sur trois benchmarks (AIME24, AIME25, BeyondAIME), ReGFT améliore constamment la précision en supervisé, accélère l'entraînement par DAPO et élève le plateau de performance final du RL. Nos résultats montrent que ReGFT surmonte efficacement la parcimonie des récompenses et permet un raisonnement mathématique basé sur le RL plus performant.
English
Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution.
We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance.
Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.