Toutes les grilles d'évaluation n'enseignent pas de manière égale : Récompenses de grille d'évaluation tenant compte de la politique pour RLVR

Résumé

L'apprentissage par renforcement avec récompenses vérifiables a rendu le post-entraînement très efficace lorsque l'exactitude peut être vérifiée automatiquement. Cependant, de nombreux comportements importants des modèles nécessitent de satisfaire simultanément plusieurs critères qualitatifs. Les récompenses basées sur des grilles d'évaluation (rubric-based rewards) répondent à ce contexte en notant des critères spécifiques à chaque requête et en les agrégeant en une récompense scalaire. Pourtant, les agrégations statiques standard confondent l'importance attribuée par un humain à un critère avec son utilité actuelle en tant que signal d'optimisation. Nous montrons que cette hypothèse est erronée dans le RL basé sur des grilles : de nombreux critères importants sont déjà saturés ou actuellement inaccessibles, tandis que les critères qui distinguent les rollouts ne sont pas nécessairement ceux ayant les poids humains les plus élevés. Nous introduisons POW3R, un cadre de récompense basé sur des grilles et conscient de la politique, qui préserve les poids humains et l'équilibre des catégories comme objectif de la grille tout en adaptant les poids des récompenses au niveau des critères durant l'entraînement. POW3R utilise un contraste au niveau des rollouts pour mettre l'accent sur les critères qui séparent actuellement les sorties de la politique, rendant la récompense GRPO plus informative sans modifier la cible d'évaluation sous-jacente. Sur trois politiques de base et deux jeux de données couvrant des contextes multimodaux et textuels, POW3R remporte 24 des 30 comparaisons politique de base/métrique, améliorant à la fois la récompense moyenne de la grille et l'achèvement strict (la fraction de requêtes dont la réponse satisfait tous les critères requis de la grille) par rapport à GRPO standard avec récompenses basées sur des grilles, et atteint le même plateau en 2,5 à 4 fois moins d'étapes d'entraînement. Les récompenses basées sur des grilles doivent donc distinguer ce qui devrait compter dans la réponse finale de ce qui peut enseigner la politique actuelle.

English

Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins 24 of 30 base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in 2.5--4times fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.