FAPO: Fehlerbewusste Policy-Optimierung für effizientes und zuverlässiges Schließen
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
October 26, 2025
papers.authors: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI
papers.abstract
Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) etabliert. In diesem Kontext erkunden Modelle Reasoning-Pfade und nutzen Rollouts mit korrekten Antworten als positive Signale für die Policy-Optimierung. Diese Rollouts können jedoch fehlerhafte Muster wie Raten von Antworten oder sprunghaftes Reasoning enthalten. Solche fehlerhaft-positiven Rollouts werden genauso belohnt wie vollständig korrekte, was dazu führt, dass die Policy-Modelle diese unzuverlässigen Reasoning-Muster verinnerlichen. In dieser Arbeit untersuchen wir zunächst systematisch fehlerhaft-positive Rollouts beim verstärkenden Lernen und stellen fest, dass sie zwar in der frühen Optimierungsphase schnelle Fähigkeitszuwächse ermöglichen, später jedoch das Reasoning-Potenzial einschränken, indem sie unzuverlässige Muster verstärken. Aufbauend auf diesen Erkenntnissen schlagen wir eine fehlerbewusste Policy-Optimierung (FAPO) vor, die einen parameterfreien Belohnungsabzug für fehlerhaft-positive Rollouts vorsieht. Dies ermöglicht es der Policy, sie in der Anfangsphase als nützliche Abkürzungen zu nutzen und stabile Frühgewinne zu erzielen, während sich die Optimierung in der späteren Verfeinerungsphase schrittweise auf zuverlässiges Reasoning verlagert. Um fehlerhaft-positive Rollouts genau und umfassend zu erkennen, führen wir ein generatives Belohnungsmodell (GenRM) mit einer prozessbasierten Belohnung ein, das Reasoning-Fehler präzise lokalisiert. Experimente zeigen, dass FAPO in verschiedenen Domänen wirksam ist und die Korrektheit der Ergebnisse, die Zuverlässigkeit des Prozesses sowie die Trainingsstabilität verbessert, ohne das Token-Budget zu erhöhen.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a
promising paradigm for enhancing the reasoning capabilities of large language
models (LLMs). In this context, models explore reasoning trajectories and
exploit rollouts with correct answers as positive signals for policy
optimization. However, these rollouts might involve flawed patterns such as
answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are
rewarded identically to fully correct ones, causing policy models to
internalize these unreliable reasoning patterns. In this work, we first conduct
a systematic study of flawed-positive rollouts in RL and find that they enable
rapid capability gains during the early optimization stage, while constraining
reasoning capability later by reinforcing unreliable patterns. Building on
these insights, we propose Flawed-Aware Policy Optimization (FAPO), which
presents a parameter-free reward penalty for flawed-positive rollouts, enabling
the policy to leverage them as useful shortcuts in the warm-up stage, securing
stable early gains, while gradually shifting optimization toward reliable
reasoning in the later refinement stage. To accurately and comprehensively
detect flawed-positive rollouts, we introduce a generative reward model (GenRM)
with a process-level reward that precisely localizes reasoning errors.
Experiments show that FAPO is effective in broad domains, improving outcome
correctness, process reliability, and training stability without increasing the
token budget.