Llave Terminal: Un conjunto de datos de 331 entornos vulnerables a la manipulación de recompensas y 3.632 trayectorias de explotación.
Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories
April 19, 2026
Autores: Ivan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong
cs.AI
Resumen
Lanzamos Terminal Wrench, un subconjunto de 331 entornos de evaluación para agentes de terminal, extraídos de los populares benchmarks abiertos que son demostrablemente vulnerables a la piratería de recompensas. El conjunto de datos incluye 3.632 trayectorias de ataques exitosos y 2.352 trayectorias legítimas de referencia obtenidas de tres modelos de vanguardia (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Cada entrada conserva la definición original de la tarea junto con las trayectorias de ataque completas que muestran cómo se eludió el verificador. También incluye casos en los que la tarea no se resolvió según lo previsto. Las tareas abarcan administración de sistemas, aprendizaje automático, ingeniería de software y desafíos de seguridad; los exploits van desde la suplantación simple de salida hasta la introspección de la pila de ejecución, la modificación de bibliotecas estándar y el secuestro de binarios al estilo rootkit. Crucialmente, estos exploits son específicos de cada tarea, y no del entorno de evaluación, lo que dificulta su corrección. También presentamos un estudio de monitorización en el que las trayectorias de ataque son saneadas o se les eliminan las trazas de razonamiento, para luego ser evaluadas por un modelo de lenguaje juez, demostrando que la detección se degrada significativamente cuando se elimina la cadena de pensamiento (el AUC cae de 0.97 a 0.92). El conjunto de datos está disponible públicamente en https://github.com/few-sh/terminal-wrench.
English
We release Terminal Wrench, a subset of 331 terminal-agent benchmark environments, copied from the popular open benchmarks that are demonstrably reward-hackable. The data set includes 3,632 hack trajectories and 2,352 legitimate baseline trajectories across three frontier models (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Each entry preserves the original task definition alongside full attack trajectories that show how the verifier was bypassed. It also includes cases where the task was not solved as intended. The tasks span system administration, machine learning, software engineering, and security challenges; the exploits range from simple output spoofing to stack-frame introspection, standard-library patching, and rootkit-style binary hijacking. Crucially, these exploits are specific to each task, rather than the evaluation harness, making them harder to patch. We also present a monitorability study in which hack trajectories are sanitized or stripped of reasoning traces and then scored by an LLM judge, showing that detection degrades meaningfully when chain-of-thought is removed (AUC drops from 0.97 to 0.92). The data set is publicly available at https://github.com/few-sh/terminal-wrench.