ChatPaper.aiChatPaper

FAPO: 効率的かつ信頼性の高い推論のための欠点を考慮したポリシー最適化

FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

October 26, 2025
著者: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI

要旨

検証可能な報酬による強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を強化する有望なパラダイムとして登場した。この枠組みでは、モデルが推論軌道を探索し、正答を含むロールアウトを政策最適化のための正の信号として利用する。しかし、これらのロールアウトには、答えの推測や飛躍した推論といった欠陥のあるパターンが含まれる可能性がある。このような「欠陥正例」ロールアウトは完全に正しいロールアウトと同様に報酬が与えられるため、政策モデルがこれらの信頼性の低い推論パターンを内在化する原因となる。本研究ではまず、強化学習における欠陥正例ロールアウトの系統的な分析を行い、それらが最適化の初期段階では能力の急速な向上をもたらす一方、後期には信頼性の低いパターンを強化することで推論能力を制約することを明らかにする。この知見に基づき、我々はFAPO(Flawed-Aware Policy Optimization)を提案する。FAPOは欠陥正例ロールアウトに対してパラメータフリーな報酬ペナルティを課し、ウォームアップ段階では有用な近道として活用して安定した初期成長を確保しつつ、後期の精緻化段階では信頼性の高い推論へ最適化を漸進的に移行させる。欠陥正例ロールアウトを正確かつ包括的に検出するため、推論エラーを精密に特定するプロセスレベル報酬を備えた生成的報酬モデル(GenRM)を導入する。実験により、FAPOがトークン予算を増加させることなく、結果の正確性、プロセスの信頼性、学習の安定性を向上させ、幅広い領域で有効であることを示す。
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models (LLMs). In this context, models explore reasoning trajectories and exploit rollouts with correct answers as positive signals for policy optimization. However, these rollouts might involve flawed patterns such as answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are rewarded identically to fully correct ones, causing policy models to internalize these unreliable reasoning patterns. In this work, we first conduct a systematic study of flawed-positive rollouts in RL and find that they enable rapid capability gains during the early optimization stage, while constraining reasoning capability later by reinforcing unreliable patterns. Building on these insights, we propose Flawed-Aware Policy Optimization (FAPO), which presents a parameter-free reward penalty for flawed-positive rollouts, enabling the policy to leverage them as useful shortcuts in the warm-up stage, securing stable early gains, while gradually shifting optimization toward reliable reasoning in the later refinement stage. To accurately and comprehensively detect flawed-positive rollouts, we introduce a generative reward model (GenRM) with a process-level reward that precisely localizes reasoning errors. Experiments show that FAPO is effective in broad domains, improving outcome correctness, process reliability, and training stability without increasing the token budget.
PDF101December 2, 2025