Benchmarks de Fortificação de Agentes com Ciclos Adversariais de Hacker-Fixer

Resumo

Os benchmarks de agentes pontuam submissões com verificadores de resultados que são tipicamente escritos à mão e frágeis, deixando-os suscetíveis a hackeamento de recompensa. Auditamos 1.968 tarefas em cinco benchmarks de agentes terminais e encontramos 323 (16%) hackeáveis por modelos de fronteira com base apenas na descrição da tarefa. Isso corrompe tanto os rankings dos líderes quanto o sinal de treinamento por reforço, embora a resposta padrão seja manual e reativa. Introduzimos o loop hacker-corretor, um método para construir verificadores resistentes a exploração sem correção manual por tarefa. O loop alterna três agentes LLM: um hacker tenta passar pelo verificador sem resolver a tarefa, um corretor corrige o verificador para rejeitar cada exploração descoberta e um solucionador confirma que o verificador corrigido ainda admite soluções legítimas. O loop itera: cada correção remodela o que o verificador recompensa, revelando a próxima exploração. Adicionamos ainda acesso ao verificador e permitimos que correções sejam transferidas entre tarefas, para ampliar as explorações que o loop descobre. No KernelBench, o loop reduz a taxa de sucesso de ataque de 62% para 0% em um corpus de validação de explorações reportadas publicamente. Também descobrimos que agentes mais fracos no loop podem se defender contra hackers muito mais fortes: o loop do Gemini 3 Flash reduz a taxa de sucesso de ataque do mais forte Gemini 3.1 Pro e do Claude Opus 4.7 de 76% e 61% para 0% no KernelBench, e do Gemini 3.1 Pro de 39% para 17% no Terminal Bench em 77 tarefas. Lançamos o Terminal Wrench (323 ambientes hackeáveis, 3.632 trajetórias de hackeamento) como um instantâneo da superfície de ataque atual, nossos verificadores corrigidos, as explorações que o loop descobriu e nossa implementação como base para trabalhos futuros.

English

Agent benchmarks score submissions with outcome verifiers that are typically hand-written and brittle, leaving them open to reward hacking. We audit 1,968 tasks across five terminal-agent benchmarks and find 323 (16%) hackable by frontier models given only the task description. This corrupts both leaderboard rankings and RL training signal, yet the standard response is manual and reactive. We introduce the hacker-fixer loop, a method for building exploit-resistant verifiers without per-task manual patching. The loop alternates three LLM agents: a hacker tries to pass the verifier without solving the task, a fixer patches the verifier to reject each discovered exploit, and a solver confirms the patched verifier still admits legitimate solutions. The loop iterates: each patch reshapes what the verifier rewards, surfacing the next exploit. We further add verifier access, and let patches transfer across tasks, to broaden the exploits the loop discovers. On KernelBench, the loop drives the attack success rate from 62% to 0% on a held-out corpus of publicly reported exploits. We also find that weaker agents in the loop can defend against much stronger hackers: Gemini 3 Flash's loop drives the stronger Gemini 3.1 Pro and Claude Opus 4.7's attack success rate from 76% and 61% to 0% on KernelBench, and Gemini 3.1 Pro's from 39% to 17% on Terminal Bench across 77 tasks. We release Terminal Wrench (323 hackable environments, 3,632 hack trajectories) as a snapshot of the current attack surface, our patched verifiers, the exploits the loop discovered, and our implementation as a basis for future work.