ChatPaper.aiChatPaper

ターミナルレンチ:331の報酬ハッキング可能な環境と3,632のエクスプロイト軌跡からなるデータセット

Terminal Wrench: A Dataset of 331 Reward-Hackable Environments and 3,632 Exploit Trajectories

April 19, 2026
著者: Ivan Bercovich, Ivgeni Segal, Kexun Zhang, Shashwat Saxena, Aditi Raghunathan, Ziqian Zhong
cs.AI

要旨

本論文では、広く利用されているオープンベンチマークから複製した、報酬ハッキングが実証可能な331のターミナルエージェントベンチマーク環境のサブセット「Terminal Wrench」を公開する。このデータセットには、3つのフロンティアモデル(Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4)において、3,632件のハック軌跡と2,352件の正当なベースライン軌跡が含まれる。各エントリには、検証器がどのようにバイパスされたかを示す完全な攻撃軌跡とともに、元のタスク定義が保存されている。意図通りに解決されなかったタスクの事例も含まれる。タスクは、システム管理、機械学習、ソフトウェアエンジニアリング、セキュリティ課題に及び、悪用手法は単純な出力偽装から、スタックフレームのイントロスペクション、標準ライブラリのパッチ適用、ルートキットスタイルのバイナリハイジャックまで多岐にわたる。決定的に重要な点は、これらの悪用が評価ハーネスではなく各タスクに特化しているため、修正が困難であることだ。また、監視可能性に関する調査も提示する。これは、ハック軌跡から推論痕跡を除去または削除した後、LLM判定器によってスコアリングするもので、思考連鎖が除去されると検出性能が有意に低下することを示している(AUCが0.97から0.92に低下)。本データセットはhttps://github.com/few-sh/terminal-wrench で公開されている。
English
We release Terminal Wrench, a subset of 331 terminal-agent benchmark environments, copied from the popular open benchmarks that are demonstrably reward-hackable. The data set includes 3,632 hack trajectories and 2,352 legitimate baseline trajectories across three frontier models (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Each entry preserves the original task definition alongside full attack trajectories that show how the verifier was bypassed. It also includes cases where the task was not solved as intended. The tasks span system administration, machine learning, software engineering, and security challenges; the exploits range from simple output spoofing to stack-frame introspection, standard-library patching, and rootkit-style binary hijacking. Crucially, these exploits are specific to each task, rather than the evaluation harness, making them harder to patch. We also present a monitorability study in which hack trajectories are sanitized or stripped of reasoning traces and then scored by an LLM judge, showing that detection degrades meaningfully when chain-of-thought is removed (AUC drops from 0.97 to 0.92). The data set is publicly available at https://github.com/few-sh/terminal-wrench.
PDF02April 22, 2026