ChatPaper.aiChatPaper

Блочное оценивание преимуществ для многокритериального обучения с подкреплением с верифицируемыми вознаграждениями

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

February 10, 2026
Авторы: Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel
cs.AI

Аннотация

Метод Group Relative Policy Optimization (GRPO) присваивает всем токенам в завершённом тексте единую скалярную advantage-функцию. Для структурированных генераций с явными сегментами и задачами это приводит к смешению несвязанных сигналов вознаграждения между сегментами, что вызывает интерференцию целей и ошибочное распределение заслуг. Мы предлагаем блочную оценку преимуществ — семейство методов, совместимых с GRPO, которое назначает каждой задаче собственную advantage-функцию и применяет её только к токенам соответствующего текстового блока, снижая зависимость от ручного проектирования скалярных вознаграждений и естественным образом масштабируясь на дополнительные цели. Ключевая сложность заключается в оценке преимуществ для последующих блоков, чьи вознаграждения зависят от сгенерированных префиксов: стандартные несмещённые подходы требуют дорогостоящих вложенных прогонов из промежуточных состояний. Конкретно мы вводим базовый уровень, обусловленный исходом, который аппроксимирует значения промежуточных состояний, используя только внутригрупповую статистику путём стратификации выборок согласно промежуточному исходу, выведенному из префикса. На математических задачах с оценкой неопределённости наш метод смягчает интерференцию вознаграждений, конкурирует с современным подходом, основанным на проектировании вознаграждений, и сохраняет преимущества ансамблевого взвешивания по уверенности на тестовых данных. В более широком смысле метод предлагает модульный рецепт для оптимизации последовательных целей в структурированных генерациях без дополнительных прогонов.
English
Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.
PDF82February 13, 2026