Stima dell’Vantaggio a Blocchi per l’Apprendimento per Rinforzo Multi-Obiettivo con Ricompense Verificabili

Abstract

Il Group Relative Policy Optimization (GRPO) assegna un unico vantaggio scalare a tutti i token in un completamento. Per generazioni strutturate con segmenti e obiettivi espliciti, questo accoppia segnali di ricompensa non correlati tra i segmenti, portando a interferenze tra obiettivi e attribuzione errata del merito. Proponiamo la Blockwise Advantage Estimation, una famiglia di metodi compatibili con GRPO che assegna a ciascun obiettivo il proprio vantaggio e lo applica solo ai token nel corrispondente blocco di testo, riducendo la dipendenza da ricompense scalari progettate manualmente e scalando naturalmente verso obiettivi aggiuntivi. Una sfida chiave è stimare i vantaggi per i blocchi successivi, le cui ricompense sono condizionate da prefissi campionati; gli approcci standard non distorti richiedono costosi rollout annidati da stati intermedi. Nello specifico, introduciamo un Outcome-Conditioned Baseline che approssima i valori degli stati intermedi utilizzando solo statistiche intra-gruppo, stratificando i campioni in base a un risultato intermedio derivato dal prefisso. Su compiti matematici con stima dell'incertezza, il nostro metodo mitiga l'interferenza delle ricompense, è competitivo con un approccio all'avanguardia basato su ricompense progettate e preserva i guadagni al test time derivanti dall'ensembling pesato per confidenza. Più in generale, fornisce una ricetta modulare per ottimizzare obiettivi sequenziali in generazioni strutturate senza rollout aggiuntivi.

English

Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.

Stima dell’Vantaggio a Blocchi per l’Apprendimento per Rinforzo Multi-Obiettivo con Ricompense Verificabili

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

Abstract

Support