TerminalWorld : évaluation comparative d'agents sur des tâches terminales du monde réel

Résumé

Nous présentons TerminalWorld, un moteur de données scalable qui reverse-enginee automatiquement des tâches d'évaluation haute-fidélité à partir d'enregistrements de terminaux « in-the-wild ». En traitant 80 870 enregistrements de terminaux, le moteur produit un benchmark complet de 1 530 tâches validées, couvrant 18 catégories réelles, allant de courtes opérations du quotidien à des workflows de plus de 50 étapes, et impliquant 1 280 commandes uniques. À partir de ces dernières, nous sélectionnons un sous-ensemble Verified de 200 tâches représentatives et examinées manuellement. Un benchmarking exhaustif sur TerminalWorld-Verified portant sur huit modèles de pointe et six agents révèle que les systèmes actuels peinent encore face à des workflows authentiques sur terminal, avec un taux de réussite maximal de seulement 62,5 %. De plus, TerminalWorld capture des capacités terminales réelles distinctes des benchmarks existants, conçus par des experts (par exemple, Terminal-Bench), avec une corrélation faible par rapport à leurs scores (r de Pearson = 0,20). Le moteur automatisé confère à TerminalWorld une authenticité et une scalabilité intrinsèques, permettant d'évaluer les agents dans des environnements terminaux réels, au fil de l'évolution des pratiques des développeurs. Les données et le code sont disponibles à l'adresse https://github.com/EuniAI/TerminalWorld.

English

We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.