Не каждая рубрика обучает одинаково: Вознаграждения по рубрикам, учитывающие политику, для RLVR

Аннотация

Обучение с подкреплением на основе проверяемых вознаграждений сделало пост-обучение высокоэффективным в тех случаях, когда корректность может быть проверена автоматически. Однако многие важные поведения модели требуют одновременного удовлетворения нескольких качественных критериев. Вознаграждения на основе рубрик решают эту задачу, оценивая критерии, специфичные для запроса, и агрегируя их в скалярное вознаграждение. Тем не менее, стандартные статические агрегации смешивают назначенную человеком важность критерия с его текущей полезностью в качестве сигнала оптимизации. Мы показываем, что это допущение нарушается в рубричном RL: многие важные критерии уже насыщены или в настоящее время недостижимы, в то время как критерии, различающие прогоны, не обязательно являются теми, которые имеют наибольшие человеческие веса. Мы представляем POW3R — фреймворк вознаграждений на основе рубрик, учитывающий политику, который сохраняет человеческие веса и баланс категорий в качестве цели рубрики, одновременно адаптируя веса вознаграждений на уровне критериев в процессе обучения. POW3R использует контраст на уровне прогонов, чтобы подчеркнуть критерии, которые в настоящее время разделяют выходы политики, делая вознаграждение GRPO более информативным без изменения лежащей в основе цели оценки. На трех базовых политиках на двух наборах данных, охватывающих мультимодальные и только текстовые конфигурации, POW3R выигрывает в 24 из 30 сравнений по базовой политике/метрике, улучшая как среднее вознаграждение по рубрике, так и строгое выполнение (долю запросов, ответы на которые удовлетворяют всем требуемым критериям рубрики) по сравнению с ванильным GRPO с вознаграждениями на основе рубрик, и достигает того же плато за в 2,5–4 раза меньше шагов обучения. Вознаграждения на основе рубрик, следовательно, должны различать то, что должно иметь значение в окончательном ответе, и то, что может обучить текущую политику.

English

Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins 24 of 30 base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in 2.5--4times fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.