FAPO: Ottimizzazione della Politica Consapevole degli Errori per un Ragionamento Efficiente e Affidabile

Abstract

L'apprendimento per rinforzo con ricompense verificabili (RLVR) è emerso come un paradigma promettente per potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM). In questo contesto, i modelli esplorano traiettorie di ragionamento e sfruttano rollout con risposte corrette come segnali positivi per l'ottimizzazione della politica. Tuttavia, questi rollout possono includere pattern imperfetti come l'indovinamento della risposta e ragionamenti a salti. Questi rollout flawed-positive vengono ricompensati allo stesso modo di quelli completamente corretti, portando i modelli policy a interiorizzare questi pattern di ragionamento inaffidabili. In questo lavoro, conduciamo prima uno studio sistematico dei rollout flawed-positive nell'RL e scopriamo che essi consentono rapidi guadagni di capacità durante la fase iniziale di ottimizzazione, mentre limitano la capacità di ragionamento in seguito rinforzando pattern inaffidabili. Sulla base di queste intuizioni, proponiamo l'Ottimizzazione della Politica Consapevole degli Errori (FAPO), che introduce una penalità di ricompensa senza parametri per i rollout flawed-positive, consentendo alla politica di sfruttarli come scorciatoie utili nella fase di warm-up, garantendo guadagni iniziali stabili, mentre gradualmente sposta l'ottimizzazione verso un ragionamento affidabile nella fase successiva di raffinamento. Per rilevare in modo accurato e completo i rollout flawed-positive, introduciamo un modello di ricompensa generativo (GenRM) con una ricompensa a livello di processo che localizza con precisione gli errori di ragionamento. Gli esperimenti mostrano che FAPO è efficace in ambiti vasti, migliorando la correttezza dei risultati, l'affidabilità del processo e la stabilità dell'addestramento senza aumentare il budget di token.

English

Reinforcement learning with verifiable rewards (RLVR) has emerged as a promising paradigm for enhancing the reasoning capabilities of large language models (LLMs). In this context, models explore reasoning trajectories and exploit rollouts with correct answers as positive signals for policy optimization. However, these rollouts might involve flawed patterns such as answer-guessing and jump-in-reasoning. Such flawed-positive rollouts are rewarded identically to fully correct ones, causing policy models to internalize these unreliable reasoning patterns. In this work, we first conduct a systematic study of flawed-positive rollouts in RL and find that they enable rapid capability gains during the early optimization stage, while constraining reasoning capability later by reinforcing unreliable patterns. Building on these insights, we propose Flawed-Aware Policy Optimization (FAPO), which presents a parameter-free reward penalty for flawed-positive rollouts, enabling the policy to leverage them as useful shortcuts in the warm-up stage, securing stable early gains, while gradually shifting optimization toward reliable reasoning in the later refinement stage. To accurately and comprehensively detect flawed-positive rollouts, we introduce a generative reward model (GenRM) with a process-level reward that precisely localizes reasoning errors. Experiments show that FAPO is effective in broad domains, improving outcome correctness, process reliability, and training stability without increasing the token budget.

FAPO: Ottimizzazione della Politica Consapevole degli Errori per un Ragionamento Efficiente e Affidabile

FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning

Abstract

Support