ChatPaper.aiChatPaper

FAPO: 효율적이고 신뢰할 수 있는 추론을 위한 결함 인식 정책 최적화

FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

October 26, 2025
저자: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI

초록

검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 유망한 패러다임으로 부상하고 있다. 이 접근법에서 모델은 추론 경로를 탐색하고 정답을 포함한 롤아웃을 정책 최적화를 위한 긍정적 신호로 활용한다. 그러나 이러한 롤아웃에는 답안 추측이나 도약 추론과 같은 결함이 있는 패턴이 포함될 수 있다. 이러한 결함 긍정 롤아웃은 완전히 정확한 롤아웃과 동일하게 보상되므로, 정책 모델이 신뢰할 수 없는 추론 패턴을 내면화하는 결과를 초래한다. 본 연구에서는 먼저 강화 학습에서 나타나는 결함 긍정 롤아웃에 대한 체계적인 연구를 수행하였으며, 이러한 롤아웃이 최적화 초기 단계에서는 빠른 능력 향상을 가능하게 하지만 후기에는 신뢰할 수 없는 패턴을 강화함으로써 추론 능력을 제한한다는 사실을 발견했다. 이러한 통찰을 바탕으로 우리는 결함 인식 정책 최적화(FAPO)를 제안한다. FAPO는 결함 긍정 롤아웃에 매개변수 불필요한 보상 패널티를 적용하여, 워밍업 단계에서는 유용한 지름길로 활용하여 안정적인 초기 성과를 확보하면서도 후기 정제 단계에서는 점차 신뢰할 수 있는 추론으로 최적화를 전환하도록 한다. 결함 긍정 롤아웃을 정확하고 포괄적으로 감지하기 위해, 우리는 추론 오류를 정밀하게 위치 특정하는 프로세스 수준 보상을 제공하는 생성적 보상 모델(GenRM)을 도입했다. 실험 결과, FAPO가 토큰 예산을 증가시키지 않으면서 결과 정확성, 프로세스 신뢰성, 훈련 안정성을 개선하여 다양한 영역에서 효과적임을 확인하였다.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models (LLMs). In this context, models explore reasoning trajectories and exploit rollouts with correct answers as positive signals for policy optimization. However, these rollouts might involve flawed patterns such as answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are rewarded identically to fully correct ones, causing policy models to internalize these unreliable reasoning patterns. In this work, we first conduct a systematic study of flawed-positive rollouts in RL and find that they enable rapid capability gains during the early optimization stage, while constraining reasoning capability later by reinforcing unreliable patterns. Building on these insights, we propose Flawed-Aware Policy Optimization (FAPO), which presents a parameter-free reward penalty for flawed-positive rollouts, enabling the policy to leverage them as useful shortcuts in the warm-up stage, securing stable early gains, while gradually shifting optimization toward reliable reasoning in the later refinement stage. To accurately and comprehensively detect flawed-positive rollouts, we introduce a generative reward model (GenRM) with a process-level reward that precisely localizes reasoning errors. Experiments show that FAPO is effective in broad domains, improving outcome correctness, process reliability, and training stability without increasing the token budget.
PDF101December 2, 2025