ChatPaper.aiChatPaper

Blockweise Vorteilsschätzung für Multi-Objective RL mit verifizierbaren Belohnungen

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

February 10, 2026
papers.authors: Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel
cs.AI

papers.abstract

Group Relative Policy Optimization (GRPO) weist allen Tokens in einer Completion einen einzigen skalaren Vorteil zu. Bei strukturierten Generierungen mit expliziten Segmenten und Zielen koppelt dies unzusammenhängende Belohnungssignale über Segmente hinweg, was zu Zielinterferenzen und falsch zugeordneten Verdiensten führt. Wir schlagen Blockweise Vorteilsschätzung vor, eine Familie von GRPO-kompatiblen Methoden, die jedem Ziel seinen eigenen Vorteil zuweist und diesen nur auf die Tokens im entsprechenden Textblock anwendet. Dies verringert die Abhängigkeit von handgestalteten skalaren Belohnungen und skaliert natürlich auf zusätzliche Ziele. Eine zentrale Herausforderung ist die Schätzung von Vorteilen für spätere Blöcke, deren Belohnungen von gesampelten Präfixen abhängen; standardmäßige unverzerrte Ansätze erfordern rechenintensive verschachtelte Rollouts von Zwischenzuständen. Konkret führen wir einen ergebnisbedingten Referenzwert ein, der Zwischenzustandswerte nur mit gruppeninternen Statistiken approximiert, indem Stichproben nach einem präfixbasierten Zwischenergebnis stratifiziert werden. Bei Mathematikaufgaben mit Unsicherheitsschätzung mildert unsere Methode Belohnungsinterferenzen, ist mit einem modernen, belohnungsbasierten Ansatz vergleichbar und erhält Testzeitgewinne aus konfidenzgewichteten Ensembles. Im weiteren Sinne bietet sie ein modulares Rezept zur Optimierung sequenzieller Ziele in strukturierten Generierungen ohne zusätzliche Rollouts.
English
Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.
PDF82February 13, 2026