Niet Elke Rubriek Leert Evenveel: Beleidsbewuste Rubriekbeloningen voor RLVR

Samenvatting

Reinforcement learning met verifieerbare beloningen heeft nabehandeling zeer effectief gemaakt wanneer correctheid automatisch kan worden gecontroleerd. Veel belangrijke modelgedragingen vereisen echter het tegelijkertijd voldoen aan meerdere kwalitatieve criteria. Rubric-gebaseerde beloningen pakken deze situatie aan door promptspecifieke criteria te beoordelen en deze te aggregeren tot een scalaire beloning. Standaard statische aggregaties verwarren echter het door mensen toegekende belang van een criterium met het huidige nut ervan als optimalisatiesignaal. We laten zien dat deze aanname niet opgaat in rubric RL: veel belangrijke criteria zijn al verzadigd of momenteel onbereikbaar, terwijl criteria die rollouts onderscheiden niet noodzakelijkerwijs de criteria zijn met de grootste menselijke gewichten. We introduceren POW3R, een beleidsbewust rubric-beloningsraamwerk dat menselijke gewichten en categoriebalans behoudt als rubric-doelstelling, terwijl het criteriumniveau-beloningsgewichten aanpast tijdens de training. POW3R gebruikt rollout-level contrast om criteria te benadrukken die momenteel de outputs van het beleid scheiden, waardoor de GRPO-beloning informatiever wordt zonder het onderliggende evaluatiedoel te veranderen. Over drie basisbeleidsvormen op twee datasets die zowel multimodale als tekst-only instellingen omvatten, wint POW3R 24 van de 30 basisbeleid/metric-vergelijkingen, waarbij het zowel de gemiddelde rubric-beloning als de strikte voltooiing (de fractie van prompts waarvan de reactie voldoet aan elk vereist rubric-criterium) verbetert ten opzichte van vanille GRPO met rubric-beloningen, en hetzelfde plateau bereikt in 2,5–4 keer minder trainingsstappen. Rubric-beloningen moeten daarom onderscheiden wat er in het uiteindelijke antwoord toe doet van wat het huidige beleid kan leren.

English

Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins 24 of 30 base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in 2.5--4times fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.