TerminalWorld: Benchmarking von Agenten anhand realer Terminalaufgaben

Zusammenfassung

Wir präsentieren TerminalWorld, eine skalierbare Daten-Engine, die automatisch aus „In-the-Wild“-Terminalaufzeichnungen hochtreue Evaluierungsaufgaben zurückentwickelt. Durch die Verarbeitung von 80.870 Terminalaufzeichnungen liefert die Engine einen vollständigen Benchmark mit 1.530 validierten Aufgaben, die 18 reale Kategorien abdecken – von kurzen alltäglichen Operationen bis hin zu Arbeitsabläufen mit über 50 Schritten – und 1.280 einzigartige Befehle umfassen. Daraus kuratieren wir einen Verified-Teildatensatz mit 200 repräsentativen, manuell überprüften Aufgaben. Umfassende Benchmarks auf TerminalWorld-Verified mit acht Spitzenmodellen und sechs Agenten zeigen, dass aktuelle Systeme immer noch mit authentischen Terminal-Workflows kämpfen und eine maximale Bestehensquote von nur 62,5 % erreichen. Darüber hinaus erfasst TerminalWorld reale Terminal-Fähigkeiten, die sich von bestehenden, von Experten kuratierten Benchmarks (z. B. Terminal-Bench) unterscheiden, mit nur einer schwachen Korrelation zu deren Ergebnissen (Pearson r = 0,20). Die automatisierte Engine macht TerminalWorld von Natur aus authentisch und skalierbar und ermöglicht es, Agenten in realen Terminal-Umgebungen zu evaluieren, während sich die Entwicklungspraktiken weiterentwickeln. Daten und Code sind verfügbar unter https://github.com/EuniAI/TerminalWorld.

English

We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.