ChatPaper.aiChatPaper

검증 가능한 보상을 갖춘 다목적 강화학습을 위한 블록 단위 이점 추정

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

February 10, 2026
저자: Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel
cs.AI

초록

Group Relative Policy Optimization(GRPO)은 완성 텍스트의 모든 토큰에 단일 스칼라 어드밴티지를 할당합니다. 명시적 세그먼트와 목표를 가진 구조화된 생성의 경우, 이는 세그먼트 간 무관한 보상 신호를 결합하여 목표 간섭과 오인된 기여도를 초래합니다. 본 논문에서는 각 목표에 고유한 어드밴티지를 할당하고 해당 텍스트 블록 내 토큰에만 적용함으로써, 수작업 설계된 스칼라 보상에 대한 의존도를 줄이고 추가 목표로 자연스럽게 확장 가능한 GRPO 호환 방법군인 Blockwise Advantage Estimation을 제안합니다. 주요 과제는 샘플링된 접두사에 조건부인 보상을 가진 후속 블록의 어드밴티지를 추정하는 것으로, 표준 불편향 추정법은 중간 상태로부터의 계산 비용이 높은 중첩 롤아웃을 필요로 합니다. 구체적으로, 접두사에서 파생된 중간 결과에 따라 샘플을 계층화하여 그룹 내 통계만으로 중간 상태 가치를 근사하는 Outcome-Conditioned Baseline을 도입합니다. 불확실성 추정이 포함된 수학 과제에서 본 방법은 보상 간섭을 완화하며, 최첨단 보상 설계 접근법과 경쟁적 성능을 보이고, 신뢰도 가중 앙상블링의 테스트 시간 이점을 유지합니다. 더 넓게 보면, 이는 추가 롤아웃 없이 구조화된 생성에서 순차적 목표를 최적화하기 위한 모듈식 방법론을 제공합니다.
English
Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.
PDF82February 13, 2026