Terminal Wrench: Um Conjunto de Dados com 331 Ambientes Suscetíveis a Recompensa Indevida e 3.632 Trajetórias de Exploração

Resumo

Lançamos o Terminal Wrench, um subconjunto de 331 ambientes de benchmark para agentes de terminal, copiados dos benchmarks abertos populares que são comprovadamente vulneráveis a reward hacking. O conjunto de dados inclui 3.632 trajetórias de hack e 2.352 trajetórias legítimas de base (baseline) em três modelos de fronteira (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Cada entrada preserva a definição original da tarefa juntamente com trajetórias completas de ataque que mostram como o verificador foi contornado. Também inclui casos em que a tarefa não foi resolvida conforme o planejado. As tarefas abrangem administração de sistemas, aprendizado de máquina, engenharia de software e desafios de segurança; as explorações variam de simples spoofing de saída a introspecção de stack frame, modificação de bibliotecas padrão e hijacking de binários no estilo rootkit. Crucialmente, essas explorações são específicas para cada tarefa, e não para o sistema de avaliação, tornando-as mais difíceis de corrigir. Também apresentamos um estudo de monitorabilidade no qual as trajetórias de hack são sanitizadas ou têm seus rastros de raciocínio removidos e, em seguida, são pontuadas por um juiz baseado em LLM, mostrando que a detecção se degrada significativamente quando a cadeia de pensamento (chain-of-thought) é removida (a AUC cai de 0,97 para 0,92). O conjunto de dados está publicamente disponível em https://github.com/few-sh/terminal-wrench.

English

We release Terminal Wrench, a subset of 331 terminal-agent benchmark environments, copied from the popular open benchmarks that are demonstrably reward-hackable. The data set includes 3,632 hack trajectories and 2,352 legitimate baseline trajectories across three frontier models (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Each entry preserves the original task definition alongside full attack trajectories that show how the verifier was bypassed. It also includes cases where the task was not solved as intended. The tasks span system administration, machine learning, software engineering, and security challenges; the exploits range from simple output spoofing to stack-frame introspection, standard-library patching, and rootkit-style binary hijacking. Crucially, these exploits are specific to each task, rather than the evaluation harness, making them harder to patch. We also present a monitorability study in which hack trajectories are sanitized or stripped of reasoning traces and then scored by an LLM judge, showing that detection degrades meaningfully when chain-of-thought is removed (AUC drops from 0.97 to 0.92). The data set is publicly available at https://github.com/few-sh/terminal-wrench.

Terminal Wrench: Um Conjunto de Dados com 331 Ambientes Suscetíveis a Recompensa Indevida e 3.632 Trajetórias de Exploração

Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

Resumo

Support