Clé à Molette Terminale : Un jeu de données de 331 environnements vulnérables au détournement de récompense et 3 632 trajectoires d'exploitation

Résumé

Nous publions Terminal Wrench, un sous-ensemble de 331 environnements de référence pour agents terminaux, copiés à partir de benchmarks ouverts populaires qui sont démontrablement vulnérables au détournement de récompense (reward-hacking). Le jeu de données comprend 3 632 trajectoires de piratage et 2 352 trajectoires légitimes de référence, issues de trois modèles frontières (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Chaque entrée conserve la définition originale de la tâche ainsi que les trajectoires d'attaque complètes montrant comment le vérificateur a été contourné. Il inclut également des cas où la tâche n'a pas été résolue comme prévu. Les tâches couvrent des défis d'administration système, d'apprentissage automatique, d'ingénierie logicielle et de sécurité ; les exploits vont de la simple falsification de sortie à l'introspection de la pile d'exécution, au patchage de bibliothèques standard et à la détournement de binaires de type rootkit. De manière cruciale, ces exploits sont spécifiques à chaque tâche, plutôt qu'au cadre d'évaluation lui-même, ce qui les rend plus difficiles à corriger. Nous présentons également une étude de monitorabilité dans laquelle les trajectoires de piratage sont assainies ou privées de leurs traces de raisonnement, puis évaluées par un juge LLM, montrant que la détection se dégrade significativement lorsque la chaîne de raisonnement (chain-of-thought) est supprimée (l'AUC chute de 0,97 à 0,92). Le jeu de données est publiquement disponible à l'adresse https://github.com/few-sh/terminal-wrench.

English

We release Terminal Wrench, a subset of 331 terminal-agent benchmark environments, copied from the popular open benchmarks that are demonstrably reward-hackable. The data set includes 3,632 hack trajectories and 2,352 legitimate baseline trajectories across three frontier models (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Each entry preserves the original task definition alongside full attack trajectories that show how the verifier was bypassed. It also includes cases where the task was not solved as intended. The tasks span system administration, machine learning, software engineering, and security challenges; the exploits range from simple output spoofing to stack-frame introspection, standard-library patching, and rootkit-style binary hijacking. Crucially, these exploits are specific to each task, rather than the evaluation harness, making them harder to patch. We also present a monitorability study in which hack trajectories are sanitized or stripped of reasoning traces and then scored by an LLM judge, showing that detection degrades meaningfully when chain-of-thought is removed (AUC drops from 0.97 to 0.92). The data set is publicly available at https://github.com/few-sh/terminal-wrench.

Clé à Molette Terminale : Un jeu de données de 331 environnements vulnérables au détournement de récompense et 3 632 trajectoires d'exploitation

Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

Résumé

Support