ChatPaper.aiChatPaper

참조 가이드 미세 조정을 통한 강화 학습 중 어려운 문제 학습

Learn Hard Problems During RL with Reference Guided Fine-tuning

March 1, 2026
저자: Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai
cs.AI

초록

수학적 추론을 위한 강화 학습(RL)은 보상 희소성 문제에 직면할 수 있습니다. 어려운 문제의 경우 LLM이 올바른 궤적을 전혀 샘플링하지 못하여 RL이 의미 있는 긍정적 피드백을 받지 못하게 됩니다. 동시에 문제와 함께 인간이 작성한 참조 해결책(예: AoPS 문제)이 존재하는 경우가 많지만, 모델이 자체 추론 분포를 벗어나는 인간의 증명을 모방하지 못하기 때문에 이러한 해결책을 직접 미세 조정해도 이점이 없습니다. 우리는 인간이 작성한 참조 해결책을 활용하여 어려운 문제에 대한 긍정적 궤적을 합성하고 RL 전에 이를 학습하는 간단하면서 효과적인 방법인 참조 가이드 미세 조정(ReGFT)을 소개합니다. 각 문제에 대해 모델에 부분적인 참조 해결책을 제공하고 자체 추론 흔적을 생성하도록 하여, 결과 궤적이 모델의 추론 공간에 남아 있으면서 참조 가이드의 이점을 얻을 수 있도록 합니다. 이러한 참조 가이드 궤적에 대한 미세 조정은 해결 가능한 문제의 수를 증가시키고 RL 동안 더 많은 긍정적 보상을 받는 체크포인트를 생성합니다. 세 가지 벤치마크(AIME24, AIME25, BeyondAIME)에서 ReGFT는 지도 학습 정확도를 지속적으로 향상시키고 DAPO 훈련 속도를 가속화하며 RL의 최종 성능 한계를 높였습니다. 우리의 결과는 ReGFT가 보상 희소성을 효과적으로 극복하고 더 강력한 RL 기반 수학적 추론을 가능하게 함을 보여줍니다.
English
Reinforcement learning (RL) for mathematical reasoning can suffer from reward sparsity: for challenging problems, LLM fails to sample any correct trajectories, preventing RL from receiving meaningful positive feedback. At the same time, there often exist human-written reference solutions along with the problem (e.g., problems from AoPS), but directly fine-tuning on these solutions offers no benefit because models often cannot imitate human proofs that lie outside their own reasoning distribution. We introduce Reference-Guided Fine-Tuning (ReGFT), a simple and effective method that utilizes human-written reference solutions to synthesize positive trajectories on hard problems and train on them before RL. For each problem, we provide the model with a partial reference solution and let it generate its own reasoning trace, ensuring the resulting trajectories remain in the model's reasoning space while still benefiting from reference guidance. Fine-tuning on these reference-guided trajectories increases the number of solvable problems and produces a checkpoint that receives more positive rewards during RL. Across three benchmarks (AIME24, AIME25, BeyondAIME), ReGFT consistently improves supervised accuracy, accelerates DAPO training, and raises the final performance plateau of RL. Our results show that ReGFT effectively overcomes reward sparsity and unlocks stronger RL-based mathematical reasoning.
PDF110March 4, 2026