ChatPaper.aiChatPaper

Estimación de Ventajas por Bloques para el Aprendizaje por Refuerzo Multiobjetivo con Recompensas Verificables

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

February 10, 2026
Autores: Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel
cs.AI

Resumen

La Optimización de Políticas Relativa a Grupos (GRPO, por sus siglas en inglés) asigna una única ventaja escalar a todos los tokens en una finalización. Para generaciones estructuradas con segmentos y objetivos explícitos, esto acopla señales de recompensa no relacionadas entre segmentos, lo que conduce a interferencia de objetivos y atribución errónea del crédito. Proponemos la Estimación de Ventaja por Bloques, una familia de métodos compatibles con GRPO que asigna a cada objetivo su propia ventaja y la aplica únicamente a los tokens en el bloque de texto correspondiente, reduciendo la dependencia de recompensas escalares diseñadas manualmente y escalando naturalmente a objetivos adicionales. Un desafío clave es estimar las ventajas para bloques posteriores cuyas recompensas están condicionadas a prefijos muestreados; los enfoques estándar no sesgados requieren costosas simulaciones anidadas a partir de estados intermedios. Concretamente, introducimos una Línea Base Condicionada al Resultado que aproxima los valores de estado intermedio utilizando únicamente estadísticas intragrupales, estratificando las muestras según un resultado intermedio derivado del prefijo. En tareas matemáticas con estimación de incertidumbre, nuestro método mitiga la interferencia de recompensas, es competitivo con un enfoque de vanguardia basado en diseño de recompensas y preserva las ganancias en tiempo de prueba del ensamblaje ponderado por confianza. En términos más generales, proporciona una receta modular para optimizar objetivos secuenciales en generaciones estructuradas sin simulaciones adicionales.
English
Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.
PDF82February 13, 2026