Nem Toda Rubrica Ensina Igualmente: Recompensas de Rubrica Conscientes de Políticas para RLVR

Resumo

A aprendizagem por reforço com recompensas verificáveis tornou o pós-treinamento altamente eficaz quando a correção pode ser verificada automaticamente. No entanto, muitos comportamentos importantes do modelo exigem satisfazer vários critérios qualitativos simultaneamente. Recompensas baseadas em rubrica abordam esse cenário ao classificar critérios específicos de cada prompt e agregá-los em uma recompensa escalar. Contudo, agregações estáticas padrão confundem a importância atribuída por humanos a um critério com sua utilidade atual como sinal de otimização. Mostramos que essa suposição falha na RL com rubrica: muitos critérios importantes já estão saturados ou atualmente inalcançáveis, enquanto critérios que distinguem rollouts não são necessariamente aqueles com maiores pesos humanos. Apresentamos o POW3R, uma estrutura de recompensa baseada em rubrica ciente da política que preserva os pesos humanos e o equilíbrio de categorias como objetivo da rubrica, ao mesmo tempo que adapta pesos das recompensas em nível de critério durante o treinamento. O POW3R usa contraste no nível de rollout para enfatizar critérios que atualmente separam as saídas da política, tornando a recompensa do GRPO mais informativa sem alterar o alvo de avaliação subjacente. Em três políticas base em dois conjuntos de dados que abrangem configurações multimodais e apenas de texto, o POW3R vence 24 de 30 comparações política base/métrica, melhorando tanto a recompensa média da rubrica quanto a conclusão estrita (a fração de prompts cuja resposta satisfaz todos os critérios de rubrica exigidos) em relação ao GRPO vanilla com recompensas baseadas em rubrica, e atinge o mesmo platô em 2,5 a 4 vezes menos etapas de treinamento. Portanto, recompensas baseadas em rubrica devem distinguir o que deve importar na resposta final daquilo que pode ensinar a política atual.

English

Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins 24 of 30 base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in 2.5--4times fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.