Comparação de Métodos de Detecção de Recompensas Fraudulentas em Ambientes de Código por Meio de Análise Contrastiva

Resumo

Os recentes avanços na aprendizagem por reforço para geração de código tornaram ambientes robustos essenciais para prevenir a manipulação de recompensas. À medida que os LLMs atuam cada vez mais como avaliadores no RL baseado em código, a sua capacidade de detetar a manipulação de recompensas permanece pouco estudada. Neste artigo, propomos uma nova taxonomia de explorações de recompensa abrangendo 54 categorias e introduzimos o TRACE (Testing Reward Anomalies in Code Environments), um benchmark sinteticamente curado e verificado por humanos, contendo 517 trajetórias de teste. Ao contrário de trabalhos anteriores que avaliam a deteção de manipulação de recompensas em cenários de classificação isolados, contrastamos essas avaliações com uma configuração mais realista de deteção de anomalias contrastivas no TRACE. As nossas experiências revelam que os modelos capturam manipulações de recompensa de forma mais eficaz em configurações contrastivas do que em configurações de classificação isoladas, com o GPT-5.2 no modo de raciocínio mais elevado a alcançar a melhor taxa de deteção em 63%, um aumento face aos 45% em configurações isoladas no TRACE. Com base nesta perceção, demonstramos que os modelos de última geração têm significativamente mais dificuldade com manipulações de recompensa semanticamente contextualizadas em comparação com as sintaticamente contextualizadas. Realizamos ainda análises qualitativas dos comportamentos dos modelos, bem como estudos de ablação que mostram que a proporção de trajetórias benignas para manipuladas e os tamanhos dos clusters de análise impactam substancialmente o desempenho da deteção. Disponibilizamos o benchmark e o conjunto de avaliação para permitir que a comunidade expanda o TRACE e avalie os seus modelos.

English

Recent advances in reinforcement learning for code generation have made robust environments essential to prevent reward hacking. As LLMs increasingly serve as evaluators in code-based RL, their ability to detect reward hacking remains understudied. In this paper, we propose a novel taxonomy of reward exploits spanning across 54 categories and introduce TRACE (Testing Reward Anomalies in Code Environments), a synthetically curated and human-verified benchmark containing 517 testing trajectories. Unlike prior work that evaluates reward hack detection in isolated classification scenarios, we contrast these evaluations with a more realistic, contrastive anomaly detection setup on TRACE. Our experiments reveal that models capture reward hacks more effectively in contrastive settings than in isolated classification settings, with GPT-5.2 with highest reasoning mode achieving the best detection rate at 63%, up from 45% in isolated settings on TRACE. Building on this insight, we demonstrate that state-of-the-art models struggle significantly more with semantically contextualized reward hacks compared to syntactically contextualized ones. We further conduct qualitative analyses of model behaviors, as well as ablation studies showing that the ratio of benign to hacked trajectories and analysis cluster sizes substantially impact detection performance. We release the benchmark and evaluation harness to enable the community to expand TRACE and evaluate their models.

Comparação de Métodos de Detecção de Recompensas Fraudulentas em Ambientes de Código por Meio de Análise Contrastiva

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

Resumo

Support