Reproductie, Analyse en Detectie van Reward Hacking in Rubriek-Gebaseerd Reinforcement Learning

Samenvatting

Op rubriek gebaseerd versterkend leren (RL) maakt gebruik van een LLM-als-rechter (LaaJ) om modeluitvoeringen te scoren volgens rubrieken als beloningen. Beleidsmodellen kunnen echter latente vooroordelen in de rechter exploiteren, wat leidt tot beloningsmisbruik en ineffectieve of onveilige trainingsresultaten. In real-world op rubriek gebaseerd RL zijn dergelijke misbruikgedragingen vaak subtiel en verweven met meerdere rechter-vooroordelen, waardoor ze moeilijk te analyseren, detecteren en mitigeren zijn. In dit artikel introduceren we CHERRL, een controleerbare misbruikomgeving voor op rubriek gebaseerd RL. Door bekende vooroordelen in LaaJ te injecteren, maakt CHERRL een stabiele reproductie van beloningsmisbruik, expliciete observatie van beloningsdivergentie en precieze identificatie van het begin van misbruik mogelijk. Dit biedt een schoon experimenteel testbed voor het bestuderen van de mechanismen en mitigaties van beloningsmisbruik in op rubriek gebaseerd RL. Om de bruikbaarheid ervan te demonstreren, analyseren we verschillende rechter-vooroordelen vanuit het perspectief van vindbaarheid en exploiteerbaarheid, en verkennen we een op agenten gebaseerd systeem voor het automatisch detecteren van het begin van beloningsmisbruik op basis van trainingslogs. De code en omgeving zijn openbaar beschikbaar op https://github.com/THUAIS-Lab/CHERRL.

English

Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, policy models may exploit latent biases in the judge, leading to reward hacking and ineffective or unsafe training outcomes. In real-world rubric-based RL, such hacking behaviors are often subtle and entangled with multiple judge biases, making them difficult to analyze, detect, and mitigate. In this paper, we introduce CHERRL, a controllable hacking environment for rubric-based RL. By injecting known biases into LaaJ, CHERRL enables stable reproduction of reward hacking, explicit observation of reward divergence, and precise identification of hacking onset. This provides a clean experimental testbed for studying the mechanisms and mitigations of reward hacking in rubric-based RL. To demonstrate its utility, we analyze different judge biases from the perspectives of discoverability and exploitability, and explore an agent-based system for automatically detecting reward hacking onset from training logs. The code and environment are publicly available at https://github.com/THUAIS-Lab/CHERRL.