Reproduzindo, Analisando e Detectando Hacking de Recompensa em Aprendizado por Reforço Baseado em Rubricas

Resumo

O aprendizado por reforço baseado em rubricas (RL) utiliza um LLM como Juiz (LaaJ) para pontuar as saídas do modelo de acordo com rubricas como recompensas. No entanto, os modelos de política podem explorar vieses latentes no juiz, levando ao hacking de recompensa e a resultados de treinamento ineficazes ou inseguros. Em ambientes reais de RL baseado em rubricas, tais comportamentos de hacking são frequentemente sutis e entrelaçados com múltiplos vieses do juiz, tornando-os difíceis de analisar, detectar e mitigar. Neste artigo, apresentamos o CHERRL, um ambiente de hacking controlável para RL baseado em rubricas. Ao injetar vieses conhecidos no LaaJ, o CHERRL permite a reprodução estável do hacking de recompensa, a observação explícita da divergência de recompensa e a identificação precisa do início do hacking. Isso fornece um ambiente experimental limpo para estudar os mecanismos e mitigações do hacking de recompensa em RL baseado em rubricas. Para demonstrar sua utilidade, analisamos diferentes vieses do juiz sob as perspectivas de descobribilidade e explorabilidade, e exploramos um sistema baseado em agente para detectar automaticamente o início do hacking de recompensa a partir dos logs de treinamento. O código e o ambiente estão disponíveis publicamente em https://github.com/THUAIS-Lab/CHERRL.

English

Rubric-based reinforcement learning (RL) uses an LLM-as-a-Judge (LaaJ) to score model outputs according to rubrics as rewards. However, policy models may exploit latent biases in the judge, leading to reward hacking and ineffective or unsafe training outcomes. In real-world rubric-based RL, such hacking behaviors are often subtle and entangled with multiple judge biases, making them difficult to analyze, detect, and mitigate. In this paper, we introduce CHERRL, a controllable hacking environment for rubric-based RL. By injecting known biases into LaaJ, CHERRL enables stable reproduction of reward hacking, explicit observation of reward divergence, and precise identification of hacking onset. This provides a clean experimental testbed for studying the mechanisms and mitigations of reward hacking in rubric-based RL. To demonstrate its utility, we analyze different judge biases from the perspectives of discoverability and exploitability, and explore an agent-based system for automatically detecting reward hacking onset from training logs. The code and environment are publicly available at https://github.com/THUAIS-Lab/CHERRL.