Moeilijke Problemen Leren Tijdens RL met Referentie-Gestuurd Fine-tuning

Samenvatting

Versterkend leren (RL) voor wiskundig redeneren kan last hebben van schaarse beloningen: bij uitdagende problemen slaagt het taalmodel er niet in om correcte trajecten te genereren, waardoor RL geen zinvolle positieve feedback ontvangt. Tegelijkertijd zijn er vaak door mensen geschreven referentieoplossingen beschikbaar bij het probleem (bijvoorbeeld problemen van AoPS), maar het direct finetunen op deze oplossingen biedt geen voordeel, omdat modellen vaak niet in staat zijn om menselijke bewijzen te imiteren die buiten hun eigen redeneerdistributie vallen. Wij introduceren Reference-Guided Fine-Tuning (ReGFT), een eenvoudige en effectieve methode die gebruikmaakt van door mensen geschreven referentieoplossingen om positieve trajecten te synthetiseren voor moeilijke problemen en hierop te trainen vóór RL. Voor elk probleem bieden we het model een gedeeltelijke referentieoplossing aan en laten we het zijn eigen redeneerspoor genereren. Dit zorgt ervoor dat de resulterende trajecten binnen de redeneerruimte van het model blijven, terwijl ze toch profiteren van de referentierichtlijn. Finetunen op deze referentie-gestuurde trajecten verhoogt het aantal oplosbare problemen en produceert een checkpoint dat tijdens RL meer positieve beloningen ontvangt. Op drie benchmarks (AIME24, AIME25, BeyondAIME) verbetert ReGFT consistent de supervised nauwkeurigheid, versnelt het de DAPO-training en verhoogt het het uiteindelijke prestatieplateau van RL. Onze resultaten tonen aan dat ReGFT schaarse beloningen effectief overwint en sterker op RL gebaseerd wiskundig redeneren mogelijk maakt.

English

Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.

Moeilijke Problemen Leren Tijdens RL met Referentie-Gestuurd Fine-tuning

Learn Hard Problems During RL with Reference Guided Fine-tuning

Samenvatting

Support