Укрепление бенчмарков агентов с помощью состязательных циклов «хакер-исправитель»

Аннотация

Бенчмарки агентов оценивают решения с помощью верификаторов результатов, которые обычно пишутся вручную и являются хрупкими, что оставляет их уязвимыми для взлома поощрений (reward hacking). Мы проверили 1 968 задач из пяти терминальных бенчмарков агентов и обнаружили, что 323 (16%) из них могут быть взломаны современными моделями, имея только описание задачи. Это искажает как рейтинги лидербордов, так и сигнал обучения с подкреплением, однако стандартная реакция остаётся ручной и реактивной. Мы представляем цикл «хакер-исправитель» (hacker-fixer loop) — метод создания устойчивых к эксплуатации верификаторов без ручного исправления каждой задачи. Цикл чередует три LLM-агента: хакер пытается пройти верификатор без решения задачи, исправитель модифицирует верификатор, чтобы отклонить каждую обнаруженную уязвимость, а решатель подтверждает, что исправленный верификатор по-прежнему допускает легитимные решения. Цикл повторяется: каждое исправление изменяет то, что поощряет верификатор, выявляя следующую уязвимость. Мы также добавляем доступ к верификатору и позволяем исправлениям переноситься между задачами, чтобы расширить спектр уязвимостей, обнаруживаемых циклом. На KernelBench цикл снижает показатель успешности атак с 62% до 0% на отдельном наборе публично зарегистрированных уязвимостей. Мы также обнаружили, что более слабые агенты в цикле могут защищаться от значительно более сильных хакеров: цикл Gemini 3 Flash снижает показатель успешности атак более сильных моделей Gemini 3.1 Pro и Claude Opus 4.7 с 76% и 61% до 0% на KernelBench, а цикл Gemini 3.1 Pro — с 39% до 17% на Terminal Bench для 77 задач. Мы выпускаем Terminal Wrench (323 взламываемых среды, 3 632 траектории взлома) как моментальный снимок текущей поверхности атак, наши исправленные верификаторы, уязвимости, обнаруженные циклом, и нашу реализацию в качестве основы для будущих исследований.

English

Agent benchmarks score submissions with outcome verifiers that are typically hand-written and brittle, leaving them open to reward hacking. We audit 1,968 tasks across five terminal-agent benchmarks and find 323 (16%) hackable by frontier models given only the task description. This corrupts both leaderboard rankings and RL training signal, yet the standard response is manual and reactive. We introduce the hacker-fixer loop, a method for building exploit-resistant verifiers without per-task manual patching. The loop alternates three LLM agents: a hacker tries to pass the verifier without solving the task, a fixer patches the verifier to reject each discovered exploit, and a solver confirms the patched verifier still admits legitimate solutions. The loop iterates: each patch reshapes what the verifier rewards, surfacing the next exploit. We further add verifier access, and let patches transfer across tasks, to broaden the exploits the loop discovers. On KernelBench, the loop drives the attack success rate from 62% to 0% on a held-out corpus of publicly reported exploits. We also find that weaker agents in the loop can defend against much stronger hackers: Gemini 3 Flash's loop drives the stronger Gemini 3.1 Pro and Claude Opus 4.7's attack success rate from 76% and 61% to 0% on KernelBench, and Gemini 3.1 Pro's from 39% to 17% on Terminal Bench across 77 tasks. We release Terminal Wrench (323 hackable environments, 3,632 hack trajectories) as a snapshot of the current attack surface, our patched verifiers, the exploits the loop discovered, and our implementation as a basis for future work.