Benchmarks de agentes de endurecimiento mediante bucles adversarios de hacker y reparador

Resumen

Los puntos de referencia para agentes evalúan las soluciones mediante verificadores de resultados que suelen ser escritos manualmente y frágiles, lo que los deja abiertos a la manipulación de recompensas. Auditamos 1,968 tareas en cinco puntos de referencia para agentes terminales y encontramos 323 (16%) hackeables por modelos de frontera con solo la descripción de la tarea. Esto corrompe tanto los rankings en las tablas de clasificación como la señal de entrenamiento por refuerzo; sin embargo, la respuesta estándar es manual y reactiva. Introducimos el bucle hacker-fijador, un método para construir verificadores resistentes a explotaciones sin parches manuales por tarea. El bucle alterna tres agentes LLM: un hacker intenta pasar el verificador sin resolver la tarea, un fijador parchea el verificador para rechazar cada explotación descubierta, y un solucionador confirma que el verificador parcheado aún admite soluciones legítimas. El bucle itera: cada parche remodela lo que el verificador recompensa, sacando a la luz la siguiente explotación. Además, añadimos acceso al verificador y permitimos que los parches se transfieran entre tareas, para ampliar las explotaciones que el bucle descubre. En KernelBench, el bucle reduce la tasa de éxito de ataque del 62% al 0% en un corpus separado de explotaciones reportadas públicamente. También encontramos que agentes más débiles en el bucle pueden defender contra hackers mucho más fuertes: el bucle de Gemini 3 Flash reduce la tasa de éxito de ataque de los más fuertes Gemini 3.1 Pro y Claude Opus 4.7 del 76% y 61% al 0% en KernelBench, y la de Gemini 3.1 Pro del 39% al 17% en Terminal Bench en 77 tareas. Publicamos Terminal Wrench (323 entornos hackeables, 3,632 trayectorias de hackeo) como una instantánea de la superficie de ataque actual, nuestros verificadores parcheados, las explotaciones que el bucle descubrió y nuestra implementación como base para trabajos futuros.

English

Agent benchmarks score submissions with outcome verifiers that are typically hand-written and brittle, leaving them open to reward hacking. We audit 1,968 tasks across five terminal-agent benchmarks and find 323 (16%) hackable by frontier models given only the task description. This corrupts both leaderboard rankings and RL training signal, yet the standard response is manual and reactive. We introduce the hacker-fixer loop, a method for building exploit-resistant verifiers without per-task manual patching. The loop alternates three LLM agents: a hacker tries to pass the verifier without solving the task, a fixer patches the verifier to reject each discovered exploit, and a solver confirms the patched verifier still admits legitimate solutions. The loop iterates: each patch reshapes what the verifier rewards, surfacing the next exploit. We further add verifier access, and let patches transfer across tasks, to broaden the exploits the loop discovers. On KernelBench, the loop drives the attack success rate from 62% to 0% on a held-out corpus of publicly reported exploits. We also find that weaker agents in the loop can defend against much stronger hackers: Gemini 3 Flash's loop drives the stronger Gemini 3.1 Pro and Claude Opus 4.7's attack success rate from 76% and 61% to 0% on KernelBench, and Gemini 3.1 Pro's from 39% to 17% on Terminal Bench across 77 tasks. We release Terminal Wrench (323 hackable environments, 3,632 hack trajectories) as a snapshot of the current attack surface, our patched verifiers, the exploits the loop discovered, and our implementation as a basis for future work.