ChatPaper.aiChatPaper

Estimation d'Avantage par Blocs pour l'Apprentissage par Renforcement Multi-Objectif avec Récompenses Vérifiables

Blockwise Advantage Estimation for Multi-Objective RL with Verifiable Rewards

February 10, 2026
papers.authors: Kirill Pavlenko, Alexander Golubev, Simon Karasik, Boris Yangel
cs.AI

papers.abstract

L'optimisation de politique relative au groupe (GRPO) attribue un avantage scalaire unique à tous les tokens d'une complétion. Pour les générations structurées avec des segments et objectifs explicites, cela couple des signaux de récompense non liés à travers les segments, conduisant à une interférence d'objectifs et à une attribution erronée du crédit. Nous proposons l'Estimation d'Avantage par Blocs, une famille de méthodes compatibles avec GRPO qui attribue à chaque objectif son propre avantage et l'applique uniquement aux tokens du bloc de texte correspondant, réduisant la dépendance aux récompenses scalaires conçues manuellement et s'étendant naturellement à des objectifs supplémentaires. Un défi majeur est l'estimation des avantages pour les blocs ultérieurs dont les récompenses sont conditionnées par des préfixes échantillonnés ; les approches standard non biaisées nécessitent des rollouts imbriqués coûteux à partir d'états intermédiaires. Concrètement, nous introduisons une Ligne de Base Conditionnée par le Résultat qui approxime les valeurs d'état intermédiaires en utilisant uniquement des statistiques intra-groupes, en stratifiant les échantillons selon un résultat intermédiaire dérivé du préfixe. Sur des tâches mathématiques avec estimation de l'incertitude, notre méthode atténue l'interférence des récompenses, est compétitive avec une approche de pointe conçue avec des récompenses, et préserve les gains en temps de test obtenus par l'assemblage pondéré par la confiance. Plus généralement, elle fournit une recette modulaire pour optimiser des objectifs séquentiels dans des générations structurées sans rollouts supplémentaires.
English
Group Relative Policy Optimization (GRPO) assigns a single scalar advantage to all tokens in a completion. For structured generations with explicit segments and objectives, this couples unrelated reward signals across segments, leading to objective interference and misattributed credit. We propose Blockwise Advantage Estimation, a family of GRPO-compatible methods that assigns each objective its own advantage and applies it only to the tokens in the corresponding text block, reducing reliance on hand-designed scalar rewards and scaling naturally to additional objectives. A key challenge is estimating advantages for later blocks whose rewards are conditioned on sampled prefixes; standard unbiased approaches require expensive nested rollouts from intermediate states. Concretely, we introduce an Outcome-Conditioned Baseline that approximates intermediate state values using only within-group statistics by stratifying samples according to a prefix-derived intermediate outcome. On math tasks with uncertainty estimation, our method mitigates reward interference, is competitive with a state-of-the-art reward-designed approach, and preserves test-time gains from confidence-weighted ensembling. More broadly, it provides a modular recipe for optimizing sequential objectives in structured generations without additional rollouts.
PDF82February 13, 2026