FAPO : Optimisation de Politique Consciente des Défauts pour un Raisonnement Efficace et Fiable
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
October 26, 2025
papers.authors: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme un paradigme prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Dans ce contexte, les modèles explorent des trajectoires de raisonnement et exploitent les déroulements avec des réponses correctes comme signaux positifs pour l'optimisation des politiques. Cependant, ces déroulements peuvent contenir des schémas défectueux tels que la devinette de réponses et le raisonnement par sauts. Ces déroulements défectueux-positifs sont récompensés de manière identique aux déroulements entièrement corrects, amenant les modèles de politique à internaliser ces schémas de raisonnement peu fiables. Dans ce travail, nous menons d'abord une étude systématique des déroulements défectueux-positifs en RL et constatons qu'ils permettent des gains de capacités rapides durant la phase initiale d'optimisation, tout en limitant la capacité de raisonnement ultérieurement en renforçant les schémas peu fiables. Sur la base de ces observations, nous proposons l'Optimisation de Politique Sensible aux Défauts (FAPO), qui introduit une pénalité de récompense sans paramètre pour les déroulements défectueux-positifs, permettant à la politique de les utiliser comme raccourcis utiles lors de la phase d'échauffement, assurant des gains initiaux stables, tout en orientant progressivement l'optimisation vers un raisonnement fiable lors de la phase de raffinement ultérieure. Pour détecter précisément et exhaustivement les déroulements défectueux-positifs, nous introduisons un modèle de récompense génératif (GenRM) avec une récompense au niveau processus qui localise avec précision les erreurs de raisonnement. Les expériences montrent que FAPO est efficace dans divers domaines, améliorant l'exactitude des résultats, la fiabilité des processus et la stabilité de l'entraînement sans augmenter le budget de tokens.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a
promising paradigm for enhancing the reasoning capabilities of large language
models (LLMs). In this context, models explore reasoning trajectories and
exploit rollouts with correct answers as positive signals for policy
optimization. However, these rollouts might involve flawed patterns such as
answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are
rewarded identically to fully correct ones, causing policy models to
internalize these unreliable reasoning patterns. In this work, we first conduct
a systematic study of flawed-positive rollouts in RL and find that they enable
rapid capability gains during the early optimization stage, while constraining
reasoning capability later by reinforcing unreliable patterns. Building on
these insights, we propose Flawed-Aware Policy Optimization (FAPO), which
presents a parameter-free reward penalty for flawed-positive rollouts, enabling
the policy to leverage them as useful shortcuts in the warm-up stage, securing
stable early gains, while gradually shifting optimization toward reliable
reasoning in the later refinement stage. To accurately and comprehensively
detect flawed-positive rollouts, we introduce a generative reward model (GenRM)
with a process-level reward that precisely localizes reasoning errors.
Experiments show that FAPO is effective in broad domains, improving outcome
correctness, process reliability, and training stability without increasing the
token budget.