Blokgewijze Voordelschatting voor Multi-Doelstelling RL met Verifieerbare Beloningen

Samenvatting

Group Relative Policy Optimization (GRPO) kent een enkele scalaire 'advantage' toe aan alle tokens in een voltooiing. Voor gestructureerde generaties met expliciete segmenten en doelstellingen koppelt dit ongerelateerde beloningssignalen over segmenten heen, wat leidt tot interferentie tussen doelstellingen en foutief toegeschreven verdienste. Wij stellen Blokgewijze Advantage Schatting voor, een familie van GRPO-compatibele methoden die elke doelstelling zijn eigen advantage toekent en deze alleen toepast op de tokens in het corresponderende tekstblok. Dit vermindert de afhankelijkheid van handmatig ontworpen scalaire beloningen en schaalt natuurlijk naar extra doelstellingen. Een belangrijke uitdaging is het schatten van advantages voor latere blokken waarvan de beloningen afhankelijk zijn gegenereerde prefixen; standaard onbevooroordeelde benaderingen vereisen dure geneste rollouts vanuit tussenliggende states. Concreet introduceren wij een Uitkomst-Geconditioneerde Baseline die tussenliggende staatswaarden benadert door alleen binnen-groepsstatistieken te gebruiken, via het stratificeren van samples op basis van een uit een prefix afgeleide tussenuitkomst. Op wiskundetaken met onzekerheidsschatting vermindert onze methode beloningsinterferentie, is zij concurrerend met een state-of-the-art, op beloningen ontworpen aanpak, en behoudt zij testtijdwinsten uit op vertrouwen gewogen ensemblemethoden. In bredere zin biedt zij een modulair recept voor het optimaliseren van sequentiële doelstellingen in gestructureerde generaties zonder extra rollouts.

English

Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.

Blokgewijze Voordelschatting voor Multi-Doelstelling RL met Verifieerbare Beloningen

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

Samenvatting

Support