Nicht jede Rubrik lehrt gleichermaßen: Policy-bewusste Rubrikbelohnungen für RLVR

Zusammenfassung

Verstärkendes Lernen mit überprüfbaren Belohnungen hat das Post-Training äußerst effektiv gemacht, wenn Korrektheit automatisch geprüft werden kann. Viele wichtige Modellverhalten erfordern jedoch die gleichzeitige Erfüllung mehrerer qualitativer Kriterien. Rubrikbasierte Belohnungen adressieren dieses Szenario, indem sie aufgabenspezifische Kriterien bewerten und zu einer skalaren Belohnung aggregieren. Dennoch vermischen statische Aggregationen die von Menschen zugewiesene Bedeutung eines Kriteriums mit seiner aktuellen Nützlichkeit als Optimierungssignal. Wir zeigen, dass diese Annahme beim Rubrik-RL zusammenbricht: Viele wichtige Kriterien sind bereits gesättigt oder derzeit unerreichbar, während Kriterien, die Rollouts unterscheiden, nicht unbedingt die mit den größten menschlichen Gewichten sind. Wir führen POW3R ein, ein politikbewusstes Rubrik-Belohnungsframework, das menschliche Gewichte und Kategoriebalance als Rubrikziel beibehält, während es kriterienebene Belohnungsgewichte während des Trainings anpasst. POW3R nutzt rolloutebenen Kontrast, um Kriterien zu betonen, die aktuelle die Ausgaben der Politik trennen, wodurch die GRPO-Belohnung informativer wird, ohne das zugrundeliegende Bewertungsziel zu ändern. Über drei Basis-Politiken auf zwei Datensätzen, die multimodale und reine Textumgebungen umfassen, gewinnt POW3R 24 von 30 Basis-Politik/Metrik-Vergleichen und verbessert sowohl die mittlere Rubrikbelohnung als auch die strikte Erfüllung (der Anteil der Aufforderungen, deren Antwort jedes geforderte Rubrikkriterium erfüllt) im Vergleich zu einfachem GRPO mit Rubrikbelohnungen und erreicht dasselbe Plateau in 2,5- bis 4-mal weniger Trainingsschritten. Rubrikbelohnungen sollten daher unterscheiden, was in der endgültigen Antwort wichtig sein sollte, von dem, was die aktuelle Politik lehren kann.

English

Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins 24 of 30 base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in 2.5--4times fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.