TerminalWorld: Benchmarking von Agenten anhand realer Terminalaufgaben
TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks
May 21, 2026
Autoren: Zhaoyang Chu, Jiarui Hu, Xingyu Jiang, Pengyu Zou, Han Li, Chao Peng, Peter O'Hearn, Earl T. Barr, Mark Harman, Federica Sarro, He Ye
cs.AI
Zusammenfassung
Wir präsentieren TerminalWorld, eine skalierbare Daten-Engine, die automatisch aus „In-the-Wild“-Terminalaufzeichnungen hochtreue Evaluierungsaufgaben zurückentwickelt. Durch die Verarbeitung von 80.870 Terminalaufzeichnungen liefert die Engine einen vollständigen Benchmark mit 1.530 validierten Aufgaben, die 18 reale Kategorien abdecken – von kurzen alltäglichen Operationen bis hin zu Arbeitsabläufen mit über 50 Schritten – und 1.280 einzigartige Befehle umfassen. Daraus kuratieren wir einen Verified-Teildatensatz mit 200 repräsentativen, manuell überprüften Aufgaben. Umfassende Benchmarks auf TerminalWorld-Verified mit acht Spitzenmodellen und sechs Agenten zeigen, dass aktuelle Systeme immer noch mit authentischen Terminal-Workflows kämpfen und eine maximale Bestehensquote von nur 62,5 % erreichen. Darüber hinaus erfasst TerminalWorld reale Terminal-Fähigkeiten, die sich von bestehenden, von Experten kuratierten Benchmarks (z. B. Terminal-Bench) unterscheiden, mit nur einer schwachen Korrelation zu deren Ergebnissen (Pearson r = 0,20). Die automatisierte Engine macht TerminalWorld von Natur aus authentisch und skalierbar und ermöglicht es, Agenten in realen Terminal-Umgebungen zu evaluieren, während sich die Entwicklungspraktiken weiterentwickeln. Daten und Code sind verfügbar unter https://github.com/EuniAI/TerminalWorld.
English
We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.