Aprenda Problemas Complexos Durante o RL com Ajuste Fino Guiado por Referência

Resumo

O aprendizado por reforço (RL) para raciocínio matemático pode sofrer com a esparsidade de recompensas: para problemas desafiadores, o LLM falha em amostrar trajetórias corretas, impedindo que o RL receba feedback positivo significativo. Ao mesmo tempo, frequentemente existem soluções de referência escritas por humanos junto com o problema (por exemplo, problemas do AoPS), mas o ajuste fino direto nessas soluções não oferece benefício porque os modelos geralmente não conseguem imitar provas humanas que estão fora de sua própria distribuição de raciocínio. Apresentamos o *Reference-Guided Fine-Tuning* (ReGFT), um método simples e eficaz que utiliza soluções de referência escritas por humanos para sintetizar trajetórias positivas em problemas difíceis e treinar o modelo nelas antes do RL. Para cada problema, fornecemos ao modelo uma solução de referência parcial e deixamos que ele gere seu próprio rastro de raciocínio, garantindo que as trajetórias resultantes permaneçam no espaço de raciocínio do modelo, mas ainda se beneficiem da orientação da referência. O ajuste fino nessas trajetórias guiadas por referência aumenta o número de problemas solucionáveis e produz um *checkpoint* que recebe mais recompensas positivas durante o RL. Em três *benchmarks* (AIME24, AIME25, BeyondAIME), o ReGFT melhora consistentemente a precisão supervisionada, acelera o treinamento com DAPO e eleva o platô de desempenho final do RL. Nossos resultados mostram que o ReGFT supera efetivamente a esparsidade de recompensas e desbloqueia um raciocínio matemático baseado em RL mais forte.

English

Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.

Aprenda Problemas Complexos Durante o RL com Ajuste Fino Guiado por Referência

Learn Hard Problems During RL with Reference Guided Fine-tuning

Resumo

Support