터미널 렌치: 331개의 보안 해킹 가능 환경과 3,632개의 악용 궤적 데이터셋
Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories
April 19, 2026
저자: Ivan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong
cs.AI
초록
저희는 보상 해킹이 가능한 것으로 입증된 인기 있는 공개 벤치마크에서 복제한 331개 터미널 에이전트 벤치마크 환경 하위 집합인 Terminal Wrench를 공개합니다. 이 데이터 세트에는 3개의 최첨단 모델(Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4)에 대한 3,632개의 해킹 궤적과 2,352개의 정상 기준 궤적이 포함되어 있습니다. 각 항목은 검증기를 어떻게 우회했는지를 보여주는 전체 공격 궤적과 함께 원본 작업 정의를 보존합니다. 또한 작업이 의도대로 해결되지 않은 사례도 포함됩니다. 작업 범위는 시스템 관리, 머신러닝, 소프트웨어 엔지니어링, 보안 과제에 걸쳐 있으며, 악용 기법은 단순한 출력 스푸핑부터 스택 프레임 검사, 표준 라이브러리 패치, 루트킷 스타일 바이너리 하이재킹까지 다양합니다. 중요한 것은 이러한 악용 기법이 평가 도구가 아닌 각 작업에 특화되어 있어 패치가 더 어렵다는 점입니다. 또한 해킹 궤적을 정제하거나 추론 흔적을 제거한 후 LLM 평가자가 점수를 매기는 모니터링 가능성 연구를 제시하며, 사고 흔적이 제거되면 탐지 성능이 의미 있게 저하됨을 보여줍니다(AUC가 0.97에서 0.92로 하락). 데이터 세트는 https://github.com/few-sh/terminal-wrench 에서 공개적으로 이용할 수 있습니다.
English
We release Terminal Wrench, a subset of 331 terminal-agent benchmark environments, copied from the popular open benchmarks that are demonstrably reward-hackable. The data set includes 3,632 hack trajectories and 2,352 legitimate baseline trajectories across three frontier models (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Each entry preserves the original task definition alongside full attack trajectories that show how the verifier was bypassed. It also includes cases where the task was not solved as intended. The tasks span system administration, machine learning, software engineering, and security challenges; the exploits range from simple output spoofing to stack-frame introspection, standard-library patching, and rootkit-style binary hijacking. Crucially, these exploits are specific to each task, rather than the evaluation harness, making them harder to patch. We also present a monitorability study in which hack trajectories are sanitized or stripped of reasoning traces and then scored by an LLM judge, showing that detection degrades meaningfully when chain-of-thought is removed (AUC drops from 0.97 to 0.92). The data set is publicly available at https://github.com/few-sh/terminal-wrench.