Schwierige Probleme während des RL-Lernens durch referenzgesteuerte Feinabstimmung

Zusammenfassung

Reinforcement Learning (RL) für mathematisches Reasoning kann unter spärlichen Belohnungen leiden: Bei anspruchsvollen Problemen gelingt es LLMs oft nicht, korrekte Trajektorien zu sampeln, was verhindert, dass das RL-Mechanismus sinnvolles positives Feedback erhält. Gleichzeitig liegen vielen Problemen (z.B. aus AoPS) von Menschen verfasste Referenzlösungen bei, doch direktes Fine-Tuning anhand dieser Lösungen bringt keinen Nutzen, da Modelle menschliche Beweise, die außerhalb ihrer eigenen Reasoning-Verteilung liegen, oft nicht nachahmen können. Wir stellen Reference-Guided Fine-Tuning (ReGFT) vor, eine einfache und effektive Methode, die menschlich verfasste Referenzlösungen nutzt, um positive Trajektorien für schwierige Probleme zu synthetisieren und damit das Training vor dem RL-Schritt durchzuführen. Für jedes Problem geben wir dem Modell einen Teil der Referenzlösung vor und lassen es seinen eigenen Reasoning-Pfad generieren. Dadurch bleiben die resultierenden Trajektorien im Reasoning-Raum des Modells, profitieren aber dennoch von der Referenzführung. Das Fine-Tuning auf diesen referenzgestützten Trajektorien erhöht die Anzahl lösbarer Probleme und erzeugt einen Checkpoint, der während des RL-Trainings mehr positive Belohnungen erhält. In drei Benchmarks (AIME24, AIME25, BeyondAIME) verbessert ReGFT durchgängig die überwachte Genauigkeit, beschleunigt das DAPO-Training und erhöht das finale Leistungsplateau von RL. Unsere Ergebnisse zeigen, dass ReGFT die Problem der spärlichen Belohnung effektiv überwindet und leistungsfähigeres RL-basiertes mathematisches Reasoning ermöglicht.

English

Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.

Schwierige Probleme während des RL-Lernens durch referenzgesteuerte Feinabstimmung

Learn Hard Problems During RL with Reference Guided Fine-tuning

Zusammenfassung

Support