ChatPaper.aiChatPaper

TerminalWorld: 실제 터미널 작업에서 에이전트 벤치마킹

TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

May 21, 2026
저자: Zhaoyang Chu, Jiarui Hu, Xingyu Jiang, Pengyu Zou, Han Li, Chao Peng, Peter O'Hearn, Earl T. Barr, Mark Harman, Federica Sarro, He Ye
cs.AI

초록

우리는 TerminalWorld를 소개합니다. 이는 "야생에서(in-the-wild)" 수집된 터미널 녹화로부터 고충실도 평가 작업을 자동으로 역설계하는 확장 가능한 데이터 엔진입니다. 80,870개의 터미널 녹화를 처리한 이 엔진은 18개의 실제 범주(짧은 일상 작업부터 50단계를 초과하는 워크플로우까지)에 걸쳐 1,280개의 고유 명령어를 포함하는 1,530개의 검증된 작업으로 구성된 전체 벤치마크를 생성합니다. 이 중에서 200개의 대표적이고 수동으로 검토된 작업으로 구성된 검증된 하위 집합(Verified subset)을 선별했습니다. TerminalWorld-Verified에 대해 8개의 최첨단 모델과 6개의 에이전트를 포괄적으로 벤치마킹한 결과, 현재 시스템은 실제 터미널 워크플로우에서 여전히 어려움을 겪으며 최대 통과율이 62.5%에 불과함을 보여줍니다. 또한 TerminalWorld는 기존의 전문가 선별 벤치마크(예: Terminal-Bench)와는 구별되는 실제 터미널 능력을 포착하며, 점수 간 상관관계가 약합니다(Pearson r=0.20). 자동화된 엔진 덕분에 TerminalWorld는 본질적으로 실제적이고 확장 가능하므로, 개발자 관행이 발전함에 따라 실제 터미널 환경에서 에이전트를 평가할 수 있습니다. 데이터와 코드는 https://github.com/EuniAI/TerminalWorld에서 확인할 수 있습니다.
English
We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.