ChatPaper.aiChatPaper

強化学習における難問の学習:参照ガイドによるファインチューニング

Learn Hard Problems During RL with Reference Guided Fine-tuning

March 1, 2026
著者: Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai
cs.AI

要旨

数学的推論における強化学習(RL)は、報酬の希薄性に悩まされる可能性がある。難しい問題では、大規模言語モデル(LLM)が正しい軌道を一切サンプリングできず、RLが意味のある正のフィードバックを受けられなくなる。一方、問題には人間が記述した参照解答が付随していることが多い(例:AoPSからの問題)が、これらの解答に対して直接ファインチューニングを行っても、モデルが自身の推論分布の外にある人間の証明を模倣できないため、利益は得られない。 我々は、参照解答を利用して難しい問題における正の軌道を合成し、RLの前にそれらで学習する、シンプルかつ効果的な手法であるReference-Guided Fine-Tuning(ReGFT)を提案する。各問題について、モデルに部分的な参照解答を提供し、自身の推論トレースを生成させることで、得られる軌道がモデルの推論空間に留まりつつ、参照によるガイダンスの恩恵を受けられるようにする。 これらの参照誘導軌道によるファインチューニングは、解ける問題の数を増やし、RL中により多くの正の報酬を受け取るチェックポイントを生成する。3つのベンチマーク(AIME24, AIME25, BeyondAIME)にわたって、ReGFTは教師あり精度を一貫して向上させ、DAPOトレーニングを加速し、RLの最終的な性能プラトーを引き上げた。我々の結果は、ReGFTが報酬の希薄性を効果的に克服し、より強力なRLベースの数学的推論を実現することを示している。
English
Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.
PDF110March 4, 2026