FAPO: Ottimizzazione della Politica Consapevole degli Errori per un Ragionamento Efficiente e Affidabile
FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning
October 26, 2025
Autori: Yuyang Ding, Chi Zhang, Juntao Li, Haibin Lin, Xin Liu, Min Zhang
cs.AI
Abstract
L'apprendimento per rinforzo con ricompense verificabili (RLVR) è emerso come un paradigma promettente per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). In questo contesto, i modelli esplorano traiettorie di ragionamento e sfruttano rollout con risposte corrette come segnali positivi per l'ottimizzazione della politica. Tuttavia, questi rollout possono includere pattern imperfetti come l'indovinamento della risposta e ragionamenti a salti. Questi rollout flawed-positive vengono ricompensati allo stesso modo di quelli completamente corretti, portando i modelli policy a interiorizzare questi pattern di ragionamento inaffidabili. In questo lavoro, conduciamo prima uno studio sistematico dei rollout flawed-positive nell'RL e scopriamo che essi consentono rapidi guadagni di capacità durante la fase iniziale di ottimizzazione, mentre limitano la capacità di ragionamento in seguito rinforzando pattern inaffidabili. Sulla base di queste intuizioni, proponiamo l'Ottimizzazione della Politica Consapevole degli Errori (FAPO), che introduce una penalità di ricompensa senza parametri per i rollout flawed-positive, consentendo alla politica di sfruttarli come scorciatoie utili nella fase di warm-up, garantendo guadagni iniziali stabili, mentre gradualmente sposta l'ottimizzazione verso un ragionamento affidabile nella fase successiva di raffinamento. Per rilevare in modo accurato e completo i rollout flawed-positive, introduciamo un modello di ricompensa generativo (GenRM) con una ricompensa a livello di processo che localizza con precisione gli errori di ragionamento. Gli esperimenti mostrano che FAPO è efficace in ambiti vasti, migliorando la correttezza dei risultati, l'affidabilità del processo e la stabilità dell'addestramento senza aumentare il budget di token.
English
Reinforcement learning with verifiable rewards (RLVR) has emerged as a
promising paradigm for enhancing the reasoning capabilities of large language
models (LLMs). In this context, models explore reasoning trajectories and
exploit rollouts with correct answers as positive signals for policy
optimization. However, these rollouts might involve flawed patterns such as
answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are
rewarded identically to fully correct ones, causing policy models to
internalize these unreliable reasoning patterns. In this work, we first conduct
a systematic study of flawed-positive rollouts in RL and find that they enable
rapid capability gains during the early optimization stage, while constraining
reasoning capability later by reinforcing unreliable patterns. Building on
these insights, we propose Flawed-Aware Policy Optimization (FAPO), which
presents a parameter-free reward penalty for flawed-positive rollouts, enabling
the policy to leverage them as useful shortcuts in the warm-up stage, securing
stable early gains, while gradually shifting optimization toward reliable
reasoning in the later refinement stage. To accurately and comprehensively
detect flawed-positive rollouts, we introduce a generative reward model (GenRM)
with a process-level reward that precisely localizes reasoning errors.
Experiments show that FAPO is effective in broad domains, improving outcome
correctness, process reliability, and training stability without increasing the
token budget.