Manipulación de la Recompensa en el Aprendizaje por Refuerzo Basado en Rúbricas

Resumen

El aprendizaje por refuerzo con recompensas verificables ha permitido mejoras significativas en la etapa de post-entrenamiento en dominios como matemáticas y programación, aunque muchos entornos abiertos dependen de recompensas basadas en rúbricas. Estudiamos la manipulación de recompensas en RL basado en rúbricas, donde una política se optimiza frente a un verificador de entrenamiento, pero se evalúa frente a un panel multiplataforma de tres evaluadores de frontera, reduciendo la dependencia de un único evaluador. Nuestro marco separa dos fuentes de divergencia: fallo del verificador, donde el verificador de entrenamiento acredita criterios de la rúbrica que los verificadores de referencia rechazan, y limitaciones del diseño de la rúbrica, donde incluso verificadores basados en rúbricas sólidos favorecen respuestas que evaluadores sin rúbrica valoran peor en general. En dominios médicos y científicos, los verificadores débiles producen grandes ganancias de recompensa proxy que no se transfieren a los verificadores de referencia; la explotación aumenta con el entrenamiento y se concentra en fallos recurrentes como la satisfacción parcial de criterios compuestos, tratar contenido implícito como explícito y la coincidencia temática imprecisa. Los verificadores más fuertes reducen sustancialmente, pero no eliminan, la explotación del verificador. También introducimos una brecha de internalización propia, un diagnóstico libre de verificador basado en las log-probabilidades de la política, que rastrea la calidad del verificador de referencia, detectando cuándo la política entrenada con el verificador débil deja de mejorar. Finalmente, en nuestro entorno, una verificación más fuerte no previene la manipulación de recompensas cuando la rúbrica deja sin especificar modos importantes de fallo: los verificadores basados en rúbricas prefieren el punto de control de RL, mientras que los evaluadores sin rúbrica prefieren el modelo base. Estos desacuerdos coinciden con ganancias concentradas en criterios de completitud y presencia, junto con disminuciones en corrección factual, concisión, relevancia y calidad general. En conjunto, estos resultados sugieren que una verificación más fuerte reduce la manipulación de recompensas, pero no garantiza por sí misma que las ganancias de la rúbrica correspondan a ganancias más amplias de calidad.

English

Reinforcement learning with verifiable rewards has enabled strong post-training gains in domains such as math and coding, though many open-ended settings rely on rubric-based rewards. We study reward hacking in rubric-based RL, where a policy is optimized against a training verifier but evaluated against a cross-family panel of three frontier judges, reducing dependence on any single evaluator. Our framework separates two sources of divergence: verifier failure, where the training verifier credits rubric criteria that reference verifiers reject, and rubric-design limitations, where even strong rubric-based verifiers favor responses that rubric-free judges rate worse overall. Across medical and science domains, weak verifiers produce large proxy-reward gains that do not transfer to the reference verifiers; exploitation grows over training and concentrates in recurring failures such as partial satisfaction of compound criteria, treating implicit content as explicit, and imprecise topical matching. Stronger verifiers substantially reduce, but do not eliminate, verifier exploitation. We also introduce a self-internalization gap, a verifier-free diagnostic based on policy log-probabilities, which tracks reference-verifier quality, detecting when the policy trained using the weak verifier stops improving. Finally, in our setting, stronger verification does not prevent reward hacking when the rubric leaves important failure modes unspecified: rubric-based verifiers prefer the RL checkpoint, while rubric-free judges prefer the base model. These disagreements coincide with gains concentrated in completeness and presence-based criteria, alongside declines in factual correctness, conciseness, relevance, and overall quality. Together, these results suggest that stronger verification reduces reward hacking, but does not by itself ensure that rubric gains correspond to broader quality gains.

Manipulación de la Recompensa en el Aprendizaje por Refuerzo Basado en Rúbricas

Reward Hacking in Rubric-Based Reinforcement Learning

Resumen

Support