Aprendizaje de Problemas Difíciles Durante el RL con Ajuste Fino Guiado por Referencia

Resumen

El aprendizaje por refuerzo (RL) para razonamiento matemático puede sufrir de escasez de recompensas: en problemas complejos, el LLM no logra muestrear trayectorias correctas, impidiendo que el RL reciba retroalimentación positiva significativa. Al mismo tiempo, suelen existir soluciones de referencia escritas por humanos junto con el problema (por ejemplo, problemas de AoPS), pero el ajuste fino directo sobre estas soluciones no ofrece beneficio porque los modelos a menudo no pueden imitar demostraciones humanas que se encuentran fuera de su propia distribución de razonamiento. Presentamos el Ajuste Fino Guiado por Referencias (ReGFT), un método simple y efectivo que utiliza soluciones de referencia escritas por humanos para sintetizar trayectorias positivas en problemas difíciles y entrenar con ellas antes del RL. Para cada problema, proporcionamos al modelo una solución de referencia parcial y le permitimos generar su propia traza de razonamiento, asegurando que las trayectorias resultantes permanezcan en el espacio de razonamiento del modelo mientras aún se benefician de la guía de referencia. El ajuste fino sobre estas trayectorias guiadas por referencias incrementa la cantidad de problemas resolubles y produce un punto de control que recibe más recompensas positivas durante el RL. En tres benchmarks (AIME24, AIME25, BeyondAIME), ReGFT mejora consistentemente la precisión supervisada, acelera el entrenamiento DAPO y eleva la meseta final de rendimiento del RL. Nuestros resultados demuestran que ReGFT supera efectivamente la escasez de recompensas y desbloquea un razonamiento matemático más robusto basado en RL.

English

Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.

Aprendizaje de Problemas Difíciles Durante el RL con Ajuste Fino Guiado por Referencia

Learn Hard Problems During RL with Reference Guided Fine-tuning

Resumen

Support