Belohnungshacking im rubrikbasierten Reinforcement Learning

Zusammenfassung

Reinforcement Learning mit überprüfbaren Belohnungen hat starke Nachtraining-Gewinne in Bereichen wie Mathematik und Programmierung ermöglicht, obwohl viele offene Umgebungen auf rubrikbasierten Belohnungen beruhen. Wir untersuchen Reward Hacking in rubrikbasiertem RL, bei dem eine Policy gegen einen Trainingsverifizierer optimiert, aber gegen ein fachübergreifendes Panel aus drei führenden Bewertern evaluiert wird, wodurch die Abhängigkeit von einem einzelnen Evaluator verringert wird. Unser Rahmenwerk unterscheidet zwei Quellen der Divergenz: Verifiziererversagen, bei dem der Trainingsverifizierer Rubrikkriterien gutschreibt, die Referenzverifizierer ablehnen, und Rubrikdesignbeschränkungen, bei denen selbst starke rubrikbasierte Verifizierer Antworten bevorzugen, die rubrikfreie Bewerter insgesamt schlechter bewerten. In medizinischen und wissenschaftlichen Bereichen erzeugen schwache Verifizierer große Proxy-Belohnungsgewinne, die nicht auf die Referenzverifizierer übertragen werden; die Ausbeutung nimmt im Laufe des Trainings zu und konzentriert sich auf wiederkehrende Fehler wie die teilweise Erfüllung zusammengesetzter Kriterien, die Behandlung impliziter Inhalte als explizit und ungenaue thematische Übereinstimmung. Stärkere Verifizierer reduzieren die Verifiziererausbeutung erheblich, beseitigen sie jedoch nicht. Wir führen außerdem eine Self-Internalization Gap ein, eine verifiziererfreie Diagnostik basierend auf den Log-Wahrscheinlichkeiten der Policy, die die Qualität des Referenzverifizierers verfolgt und erkennt, wann die mit dem schwachen Verifizierer trainierte Policy aufhört, sich zu verbessern. Schließlich verhindert eine stärkere Verifizierung in unserer Umgebung Reward Hacking nicht, wenn die Rubrik wichtige Fehlermodi unspezifiziert lässt: rubrikbasierte Verifizierer bevorzugen den RL-Checkpoint, während rubrikfreie Bewerter das Basismodell bevorzugen. Diese Uneinigkeiten gehen einher mit Gewinnen, die sich auf Vollständigkeits- und Präsenzkriterien konzentrieren, sowie mit Rückgängen bei faktischer Korrektheit, Prägnanz, Relevanz und Gesamtqualität. Zusammengenommen deuten diese Ergebnisse darauf hin, dass eine stärkere Verifizierung Reward Hacking reduziert, aber nicht allein gewährleistet, dass Rubrikgewinne mit umfassenderen Qualitätsgewinnen einhergehen.

English

Reinforcement learning with verifiable rewards has enabled strong post-training gains in domains such as math and coding, though many open-ended settings rely on rubric-based rewards. We study reward hacking in rubric-based RL, where a policy is optimized against a training verifier but evaluated against a cross-family panel of three frontier judges, reducing dependence on any single evaluator. Our framework separates two sources of divergence: verifier failure, where the training verifier credits rubric criteria that reference verifiers reject, and rubric-design limitations, where even strong rubric-based verifiers favor responses that rubric-free judges rate worse overall. Across medical and science domains, weak verifiers produce large proxy-reward gains that do not transfer to the reference verifiers; exploitation grows over training and concentrates in recurring failures such as partial satisfaction of compound criteria, treating implicit content as explicit, and imprecise topical matching. Stronger verifiers substantially reduce, but do not eliminate, verifier exploitation. We also introduce a self-internalization gap, a verifier-free diagnostic based on policy log-probabilities, which tracks reference-verifier quality, detecting when the policy trained using the weak verifier stops improving. Finally, in our setting, stronger verification does not prevent reward hacking when the rubric leaves important failure modes unspecified: rubric-based verifiers prefer the RL checkpoint, while rubric-free judges prefer the base model. These disagreements coincide with gains concentrated in completeness and presence-based criteria, alongside declines in factual correctness, conciseness, relevance, and overall quality. Together, these results suggest that stronger verification reduces reward hacking, but does not by itself ensure that rubric gains correspond to broader quality gains.

Belohnungshacking im rubrikbasierten Reinforcement Learning

Reward Hacking in Rubric-Based Reinforcement Learning

Zusammenfassung

Support