Estimação de Vantagem por Blocos para Aprendizagem por Reforço Multiobjetivo com Recompensas Verificáveis

Resumo

O Group Relative Policy Optimization (GRPO) atribui uma única vantagem escalar a todos os tokens em uma conclusão. Para gerações estruturadas com segmentos e objetivos explícitos, isso acopla sinais de recompensa não relacionados entre os segmentos, levando a interferência de objetivos e crédito mal atribuído. Propomos a Estimativa de Vantagem por Blocos, uma família de métodos compatíveis com GRPO que atribui a cada objetivo sua própria vantagem e a aplica apenas aos tokens no bloco de texto correspondente, reduzindo a dependência de recompensas escalares projetadas manualmente e escalando naturalmente para objetivos adicionais. Um desafio fundamental é estimar vantagens para blocos posteriores, cujas recompensas são condicionadas a prefixos amostrados; abordagens padrão não enviesadas exigem rollouts aninhados dispendiosos a partir de estados intermediários. Concretamente, introduzimos uma Linha de Base Condicionada ao Resultado que aproxima os valores de estado intermediário usando apenas estatísticas intragrupo, estratificando as amostras de acordo com um resultado intermediário derivado do prefixo. Em tarefas matemáticas com estimativa de incerteza, nosso método mitiga a interferência de recompensa, é competitivo com uma abordagem state-of-the-art baseada em recompensa projetada e preserva os ganhos em tempo de teste provenientes do ensemble ponderado por confiança. De forma mais ampla, ele fornece uma receita modular para otimizar objetivos sequenciais em gerações estruturadas sem rollouts adicionais.

English

Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.

Estimação de Vantagem por Blocos para Aprendizagem por Reforço Multiobjetivo com Recompensas Verificáveis

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

Resumo

Support