TerminalWorld: 実世界のターミナルタスクにおけるエージェントのベンチマーク
TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks
May 21, 2026
著者: Zhaoyang Chu, Jiarui Hu, Xingyu Jiang, Pengyu Zou, Han Li, Chao Peng, Peter O'Hearn, Earl T. Barr, Mark Harman, Federica Sarro, He Ye
cs.AI
要旨
私たちはTerminalWorldを紹介します。これは、実環境の端末記録から高忠実度の評価タスクを自動的にリバースエンジニアリングする、スケーラブルなデータエンジンです。80,870件の端末記録を処理し、このエンジンは18の実世界カテゴリにわたる1,530の検証済みタスクからなる完全なベンチマークを生成します。タスクは短い日常的な操作から50ステップを超えるワークフローまで多岐にわたり、1,280のユニークなコマンドをカバーします。これらの中から、手動でレビューされた200の代表的なタスクからなるVerifiedサブセットを厳選しました。TerminalWorld-Verifiedを用いて8つの最先端モデルと6つのエージェントを包括的にベンチマークした結果、現在のシステムは実際の端末ワークフローに苦戦しており、最大通過率はわずか62.5%にとどまることが明らかになりました。さらに、TerminalWorldは既存の専門家厳選ベンチマーク(例:Terminal-Bench)とは異なる実世界の端末能力を捉えており、それらのスコアとの相関は弱い(ピアソンのr=0.20)ことが示されました。自動化エンジンにより、TerminalWorldは設計上、本物でありスケーラブルであり、開発者の実践が進化するにつれて実環境の端末でエージェントを評価することが可能になります。データとコードは https://github.com/EuniAI/TerminalWorld で入手できます。
English
We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.