ChatPaper.aiChatPaper

検証可能な報酬を用いた多目的強化学習におけるブロック単位アドバンテージ推定

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

February 10, 2026
著者: Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel
cs.AI

要旨

Group Relative Policy Optimization(GRPO)は、生成完了文内の全てのトークンに単一のスカラー advantage を割り当てる。明示的なセグメントと目的を持つ構造化生成において、これはセグメント間で無関係な報酬信号を結合し、目的間干渉と信用割り当ての誤りを引き起こす。我々は、Blockwise Advantage Estimation を提案する。これはGRPOと互換性のある手法群であり、各目的に独自の advantage を割り当て、それを対応するテキストブロック内のトークンにのみ適用する。これにより、手設計のスカラー報酬への依存を軽減し、追加目的への自然な拡張を可能にする。主要な課題は、報酬が生成された接頭辞に条件付けられる後続ブロックの advantage を推定することである。標準的な不偏推定量は、中間状態からの高コストなネストされたロールアウトを必要とする。具体的には、接頭辞から導出された中間アウトカムに基づいてサンプルを層別化し、グループ内統計のみを用いて中間状態価値を近似する Outcome-Conditioned Baseline を導入する。不確実性推定を伴う数学タスクにおいて、本手法は報酬干渉を軽減し、最先端の報酬設計手法と同等の性能を示し、信頼度重み付けアンサンブルによるテスト時性能向上を維持する。より広義には、これは追加のロールアウトなしで構造化生成における逐次的な目的を最適化するためのモジュール的な手法を提供する。
English
Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.
PDF82February 13, 2026