Apprendimento di Problemi Complessi Durante l'RL con Fine-Tuning Guidato da Riferimenti

Abstract

L'apprendimento per rinforzo (RL) per il ragionamento matematico può soffrire di scarsità di ricompense: per problemi complessi, gli LLM non riescono a campionare traiettorie corrette, impedendo all'RL di ricevere un feedback positivo significativo. Allo stesso tempo, spesso esistono soluzioni di riferimento scritte da esseri umani insieme al problema (ad esempio, problemi da AoPS), ma un fine-tuning diretto su queste soluzioni non apporta benefici perché i modelli spesso non possono imitare dimostrazioni umane che si trovano al di fuori della loro distribuzione di ragionamento. Introduciamo il Reference-Guided Fine-Tuning (ReGFT), un metodo semplice ed efficace che utilizza soluzioni di riferimento scritte da esseri umani per sintetizzare traiettorie positive su problemi difficili e addestrare il modello su di esse prima dell'RL. Per ogni problema, forniamo al modello una soluzione di riferimento parziale e gli permettiamo di generare la propria traccia di ragionamento, garantendo che le traiettorie risultanti rimangano nello spazio di ragionamento del modello pur beneficiando della guida di riferimento. Il fine-tuning su queste traiettorie guidate da riferimento aumenta il numero di problemi risolvibili e produce un checkpoint che riceve più ricompense positive durante l'RL. In tre benchmark (AIME24, AIME25, BeyondAIME), ReGFT migliora costantemente l'accuratezza supervisionata, accelera l'addestramento DAPO e innalza il plateau di performance finale dell'RL. I nostri risultati mostrano che ReGFT supera efficacemente la scarsità di ricompense e sblocca un ragionamento matematico basato su RL più potente.

English

Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.

Apprendimento di Problemi Complessi Durante l'RL con Fine-Tuning Guidato da Riferimenti

Learn Hard Problems During RL with Reference Guided Fine-tuning

Abstract

Support