FAPO: Fehlerbewusste Policy-Optimierung für effizientes und zuverlässiges Schließen

papers.abstract

Verstärkendes Lernen mit verifizierbaren Belohnungen (RLVR) hat sich als vielversprechendes Paradigma zur Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) etabliert. In diesem Kontext erkunden Modelle Reasoning-Pfade und nutzen Rollouts mit korrekten Antworten als positive Signale für die Policy-Optimierung. Diese Rollouts können jedoch fehlerhafte Muster wie Raten von Antworten oder sprunghaftes Reasoning enthalten. Solche fehlerhaft-positiven Rollouts werden genauso belohnt wie vollständig korrekte, was dazu führt, dass die Policy-Modelle diese unzuverlässigen Reasoning-Muster verinnerlichen. In dieser Arbeit untersuchen wir zunächst systematisch fehlerhaft-positive Rollouts beim verstärkenden Lernen und stellen fest, dass sie zwar in der frühen Optimierungsphase schnelle Fähigkeitszuwächse ermöglichen, später jedoch das Reasoning-Potenzial einschränken, indem sie unzuverlässige Muster verstärken. Aufbauend auf diesen Erkenntnissen schlagen wir eine fehlerbewusste Policy-Optimierung (FAPO) vor, die einen parameterfreien Belohnungsabzug für fehlerhaft-positive Rollouts vorsieht. Dies ermöglicht es der Policy, sie in der Anfangsphase als nützliche Abkürzungen zu nutzen und stabile Frühgewinne zu erzielen, während sich die Optimierung in der späteren Verfeinerungsphase schrittweise auf zuverlässiges Reasoning verlagert. Um fehlerhaft-positive Rollouts genau und umfassend zu erkennen, führen wir ein generatives Belohnungsmodell (GenRM) mit einer prozessbasierten Belohnung ein, das Reasoning-Fehler präzise lokalisiert. Experimente zeigen, dass FAPO in verschiedenen Domänen wirksam ist und die Korrektheit der Ergebnisse, die Zuverlässigkeit des Prozesses sowie die Trainingsstabilität verbessert, ohne das Token-Budget zu erhöhen.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models (LLMs). In this context, models explore reasoning trajectories and exploit rollouts with correct answers as positive signals for policy optimization. However, these rollouts might involve flawed patterns such as answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are rewarded identically to fully correct ones, causing policy models to internalize these unreliable reasoning patterns. In this work, we first conduct a systematic study of flawed-positive rollouts in RL and find that they enable rapid capability gains during the early optimization stage, while constraining reasoning capability later by reinforcing unreliable patterns. Building on these insights, we propose Flawed-Aware Policy Optimization (FAPO), which presents a parameter-free reward penalty for flawed-positive rollouts, enabling the policy to leverage them as useful shortcuts in the warm-up stage, securing stable early gains, while gradually shifting optimization toward reliable reasoning in the later refinement stage. To accurately and comprehensively detect flawed-positive rollouts, we introduce a generative reward model (GenRM) with a process-level reward that precisely localizes reasoning errors. Experiments show that FAPO is effective in broad domains, improving outcome correctness, process reliability, and training stability without increasing the token budget.

FAPO: Fehlerbewusste Policy-Optimierung für effizientes und zuverlässiges Schließen

FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

papers.abstract

Support