Бенчмаркинг обнаружения взлома систем вознаграждения в программных средах с помощью контрастного анализа

Аннотация

Последние достижения в области обучения с подкреплением для генерации кода сделали надежные среды необходимыми для предотвращения взлома системы вознаграждений. Поскольку большие языковые модели все чаще выступают в роли оценщиков в RL, основанном на коде, их способность обнаруживать взлом вознаграждений остается недостаточно изученной. В данной статье мы предлагаем новую таксономию уязвимостей системы вознаграждений, охватывающую 54 категории, и представляем TRACE (Testing Reward Anomalies in Code Environments) — синтетически созданный и проверенный человеком бенчмарк, содержащий 517 тестовых траекторий. В отличие от предыдущих работ, оценивающих обнаружение взлома вознаграждений в изолированных сценариях классификации, мы противопоставляем эти оценки более реалистичной контрастной настройке обнаружения аномалий на TRACE. Наши эксперименты показывают, что модели эффективнее выявляют взлом вознаграждений в контрастных условиях, чем в изолированных условиях классификации: GPT-5.2 в режиме наивысшего уровня рассуждений демонстрирует наилучший показатель обнаружения — 63%, по сравнению с 45% в изолированных условиях на TRACE. Основываясь на этом наблюдении, мы показываем, что современные модели значительно хуже справляются с семантически контекстуализированными взломами вознаграждений по сравнению с синтаксически контекстуализированными. Мы также проводим качественный анализ поведения моделей и ablation-исследования, которые показывают, что соотношение доброкачественных и взломанных траекторий, а также размеры кластеров анализа существенно влияют на производительность обнаружения. Мы публикуем бенчмарк и среду оценки, чтобы позволить сообществу расширять TRACE и оценивать свои модели.

English

Recent advances in reinforcement learning for code generation have made robust environments essential to prevent reward hacking. As LLMs increasingly serve as evaluators in code-based RL, their ability to detect reward hacking remains understudied. In this paper, we propose a novel taxonomy of reward exploits spanning across 54 categories and introduce TRACE (Testing Reward Anomalies in Code Environments), a synthetically curated and human-verified benchmark containing 517 testing trajectories. Unlike prior work that evaluates reward hack detection in isolated classification scenarios, we contrast these evaluations with a more realistic, contrastive anomaly detection setup on TRACE. Our experiments reveal that models capture reward hacks more effectively in contrastive settings than in isolated classification settings, with GPT-5.2 with highest reasoning mode achieving the best detection rate at 63%, up from 45% in isolated settings on TRACE. Building on this insight, we demonstrate that state-of-the-art models struggle significantly more with semantically contextualized reward hacks compared to syntactically contextualized ones. We further conduct qualitative analyses of model behaviors, as well as ablation studies showing that the ratio of benign to hacked trajectories and analysis cluster sizes substantially impact detection performance. We release the benchmark and evaluation harness to enable the community to expand TRACE and evaluate their models.

Бенчмаркинг обнаружения взлома систем вознаграждения в программных средах с помощью контрастного анализа

Benchmarking Reward Hack Detection in Code Environments via Contrastive Analysis

Аннотация

Support