No toda rúbrica enseña por igual: Recompensas de rúbrica conscientes de la política para RLVR

Resumen

El aprendizaje por refuerzo con recompensas verificables ha hecho que el post-entrenamiento sea altamente efectivo cuando la corrección puede comprobarse de forma automática. Sin embargo, muchos comportamientos importantes de los modelos requieren satisfacer simultáneamente varios criterios cualitativos. Las recompensas basadas en rúbricas abordan este escenario evaluando criterios específicos de cada indicación (prompt) y agregándolos en una recompensa escalar. No obstante, las agregaciones estáticas estándar confunden la importancia asignada por humanos a un criterio con su utilidad actual como señal de optimización. Mostramos que esta suposición falla en el RL basado en rúbricas: muchos criterios importantes ya están saturados o son actualmente inalcanzables, mientras que los criterios que distinguen distintos despliegues (rollouts) no son necesariamente aquellos con los pesos humanos más grandes. Presentamos POW3R, un marco de recompensas basadas en rúbricas consciente de la política que preserva los pesos humanos y el equilibrio de categorías como objetivo de la rúbrica, mientras adapta los pesos de las recompensas a nivel de criterio durante el entrenamiento. POW3R utiliza el contraste a nivel de despliegue para enfatizar los criterios que actualmente separan las salidas de la política, haciendo que la recompensa de GRPO sea más informativa sin cambiar el objetivo de evaluación subyacente. En tres políticas base sobre dos conjuntos de datos que abarcan configuraciones multimodales y de solo texto, POW3R gana 24 de 30 comparaciones base-política/métrica, mejorando tanto la recompensa media de la rúbrica como la finalización estricta (la fracción de indicaciones cuya respuesta satisface todos los criterios requeridos de la rúbrica) en comparación con GRPO estándar con recompensas de rúbrica, y alcanza la misma meseta en 2.5 a 4 veces menos pasos de entrenamiento. Por lo tanto, las recompensas basadas en rúbricas deben distinguir lo que debería importar en la respuesta final de lo que puede enseñar a la política actual.

English

Reinforcement learning with verifiable rewards has made post-training highly effective when correctness can be checked automatically. However, many important model behaviors require satisfying several qualitative criteria at once. Rubric-based rewards address this setting by grading prompt-specific criteria and aggregating them into a scalar reward. Yet standard static aggregations conflate a criterion's human-assigned importance with its current usefulness as an optimization signal. We show that this assumption breaks down in rubric RL: many important criteria are already saturated or currently unreachable, while criteria that distinguish rollouts are not necessarily those with the largest human weights. We introduce POW3R, a policy-aware rubric reward framework that preserves human weights and category balance as the rubric objective while adapting criterion-level reward weights during training. POW3R uses rollout-level contrast to emphasize criteria that currently separate the policy's outputs, making the GRPO reward more informative without changing the underlying evaluation target. Across three base policies on two datasets spanning multimodal and text-only settings, POW3R wins 24 of 30 base-policy/metric comparisons, improving both mean rubric reward and strict completion (the fraction of prompts whose response satisfies every required rubric criterion) over vanilla GRPO with rubric rewards, and reaches the same plateau in 2.5--4times fewer training steps. Rubric rewards should therefore distinguish what should matter in the final answer from what can teach the current policy.