Détournement de récompense dans l'apprentissage par renforcement basé sur des grilles d'évaluation

Résumé

L'apprentissage par renforcement avec des récompenses vérifiables a permis d'obtenir des gains importants après l'entraînement dans des domaines tels que les mathématiques et le codage, bien que de nombreux contextes ouverts reposent sur des récompenses basées sur des grilles d'évaluation. Nous étudions le détournement de récompense dans le RL basé sur des grilles d'évaluation, où une politique est optimisée par rapport à un vérificateur d'entraînement mais évaluée par rapport à un panel inter-familles de trois juges de pointe, réduisant ainsi la dépendance à un seul évaluateur. Notre cadre distingue deux sources de divergence : l'échec du vérificateur, où le vérificateur d'entraînement attribue du crédit à des critères de la grille que les vérificateurs de référence rejettent, et les limitations de conception de la grille, où même des vérificateurs basés sur des grilles fortes favorisent des réponses que des juges sans grille évaluent globalement moins bien. Dans les domaines médicaux et scientifiques, des vérificateurs faibles produisent des gains importants de récompense proxy qui ne se transfèrent pas aux vérificateurs de référence ; l'exploitation augmente au cours de l'entraînement et se concentre sur des échecs récurrents tels que la satisfaction partielle de critères composés, le traitement du contenu implicite comme explicite et la correspondance thématique imprécise. Des vérificateurs plus forts réduisent considérablement, mais n'éliminent pas, l'exploitation du vérificateur. Nous introduisons également un écart d'auto-internalisation, un diagnostic sans vérificateur basé sur les log-probabilités de la politique, qui suit la qualité du vérificateur de référence, détectant quand la politique entraînée avec le vérificateur faible cesse de s'améliorer. Enfin, dans notre contexte, une vérification plus forte n'empêche pas le détournement de récompense lorsque la grille laisse des modes d'échec importants non spécifiés : les vérificateurs basés sur la grille préfèrent le point de contrôle RL, tandis que les juges sans grille préfèrent le modèle de base. Ces désaccords coïncident avec des gains concentrés sur des critères de complétude et de présence, parallèlement à des baisses de l'exactitude factuelle, de la concision, de la pertinence et de la qualité globale. Ensemble, ces résultats suggèrent qu'une vérification plus forte réduit le détournement de récompense, mais ne garantit pas en soi que les gains de la grille correspondent à des gains de qualité plus larges.

English

Reinforcement learning with verifiable rewards has enabled strong post-training gains in domains such as math and coding, though many open-ended settings rely on rubric-based rewards. We study reward hacking in rubric-based RL, where a policy is optimized against a training verifier but evaluated against a cross-family panel of three frontier judges, reducing dependence on any single evaluator. Our framework separates two sources of divergence: verifier failure, where the training verifier credits rubric criteria that reference verifiers reject, and rubric-design limitations, where even strong rubric-based verifiers favor responses that rubric-free judges rate worse overall. Across medical and science domains, weak verifiers produce large proxy-reward gains that do not transfer to the reference verifiers; exploitation grows over training and concentrates in recurring failures such as partial satisfaction of compound criteria, treating implicit content as explicit, and imprecise topical matching. Stronger verifiers substantially reduce, but do not eliminate, verifier exploitation. We also introduce a self-internalization gap, a verifier-free diagnostic based on policy log-probabilities, which tracks reference-verifier quality, detecting when the policy trained using the weak verifier stops improving. Finally, in our setting, stronger verification does not prevent reward hacking when the rubric leaves important failure modes unspecified: rubric-based verifiers prefer the RL checkpoint, while rubric-free judges prefer the base model. These disagreements coincide with gains concentrated in completeness and presence-based criteria, alongside declines in factual correctness, conciseness, relevance, and overall quality. Together, these results suggest that stronger verification reduces reward hacking, but does not by itself ensure that rubric gains correspond to broader quality gains.

Détournement de récompense dans l'apprentissage par renforcement basé sur des grilles d'évaluation

Reward Hacking in Rubric-Based Reinforcement Learning

Résumé

Support