Härtungsagent-Benchmarks mit adversarialen Hacker-Fixer-Schleifen

Zusammenfassung

Agent-Benchmarks bewerten Einreichungen mit Ergebnisprüfern, die typischerweise manuell erstellt und spröde sind, was sie anfällig für Reward Hacking macht. Wir überprüfen 1.968 Aufgaben aus fünf Terminal-Agent-Benchmarks und stellen fest, dass 323 (16%) von Grenzmodellen allein anhand der Aufgabenbeschreibung hackbar sind. Dies verfälscht sowohl Leaderboard-Rankings als auch RL-Trainingssignale, dennoch ist die Standardreaktion manuell und reaktiv. Wir führen die Hacker-Fixer-Schleife ein, eine Methode zur Erstellung manipulationsresistenter Prüfer ohne manuelle Anpassung pro Aufgabe. Die Schleife wechselt drei LLM-Agenten ab: Ein Hacker versucht, den Prüfer zu passieren, ohne die Aufgabe zu lösen; ein Fixer passt den Prüfer an, um jeden entdeckten Exploit abzuweisen; und ein Löser bestätigt, dass der angepasste Prüfer weiterhin legitime Lösungen zulässt. Die Schleife iteriert: Jeder Patch formt neu, was der Prüfer belohnt, und bringt den nächsten Exploit hervor. Wir fügen ferner Prüferzugriff hinzu und lassen Patches über Aufgaben hinweg übertragen, um das Spektrum der von der Schleife entdeckten Exploits zu erweitern. Auf KernelBench senkt die Schleife die Angriffserfolgsrate von 62% auf 0% auf einem zurückgehaltenen Korpus öffentlich gemeldeter Exploits. Wir stellen zudem fest, dass schwächere Agenten in der Schleife gegen deutlich stärkere Hacker verteidigen können: Die Schleife von Gemini 3 Flash senkt die Angriffserfolgsrate der stärkeren Gemini 3.1 Pro und Claude Opus 4.7 von 76% bzw. 61% auf 0% auf KernelBench, und die von Gemini 3.1 Pro von 39% auf 17% auf Terminal Bench über 77 Aufgaben. Wir veröffentlichen Terminal Wrench (323 hackbare Umgebungen, 3.632 Hack-Trajektorien) als Momentaufnahme der aktuellen Angriffsfläche, unsere gepatchten Prüfer, die von der Schleife entdeckten Exploits und unsere Implementierung als Grundlage für zukünftige Arbeiten.

English

Agent benchmarks score submissions with outcome verifiers that are typically hand-written and brittle, leaving them open to reward hacking. We audit 1,968 tasks across five terminal-agent benchmarks and find 323 (16%) hackable by frontier models given only the task description. This corrupts both leaderboard rankings and RL training signal, yet the standard response is manual and reactive. We introduce the hacker-fixer loop, a method for building exploit-resistant verifiers without per-task manual patching. The loop alternates three LLM agents: a hacker tries to pass the verifier without solving the task, a fixer patches the verifier to reject each discovered exploit, and a solver confirms the patched verifier still admits legitimate solutions. The loop iterates: each patch reshapes what the verifier rewards, surfacing the next exploit. We further add verifier access, and let patches transfer across tasks, to broaden the exploits the loop discovers. On KernelBench, the loop drives the attack success rate from 62% to 0% on a held-out corpus of publicly reported exploits. We also find that weaker agents in the loop can defend against much stronger hackers: Gemini 3 Flash's loop drives the stronger Gemini 3.1 Pro and Claude Opus 4.7's attack success rate from 76% and 61% to 0% on KernelBench, and Gemini 3.1 Pro's from 39% to 17% on Terminal Bench across 77 tasks. We release Terminal Wrench (323 hackable environments, 3,632 hack trajectories) as a snapshot of the current attack surface, our patched verifiers, the exploits the loop discovered, and our implementation as a basis for future work.