TerminalWorld: Evaluación comparativa de agentes en tareas de terminal del mundo real

Resumen

Presentamos TerminalWorld, un motor de datos escalable que reconstruye automáticamente tareas de evaluación de alta fidelidad a partir de grabaciones de terminal del mundo real. Procesando 80.870 grabaciones de terminal, el motor genera un conjunto completo de 1.530 tareas validadas, que abarcan 18 categorías del mundo real, desde operaciones cotidianas breves hasta flujos de trabajo que superan los 50 pasos, e incluyen 1.280 comandos únicos. A partir de estas, seleccionamos un subconjunto Verificado de 200 tareas representativas revisadas manualmente. Una evaluación comparativa exhaustiva en TerminalWorld-Verified con ocho modelos de frontera y seis agentes revela que los sistemas actuales aún tienen dificultades con los flujos de trabajo auténticos en terminal, logrando una tasa máxima de éxito de solo el 62,5 %. Además, TerminalWorld captura capacidades reales de terminal distintas de las evaluaciones existentes seleccionadas por expertos (p. ej., Terminal-Bench), con una correlación débil con sus puntuaciones (Pearson r = 0,20). El motor automatizado hace que TerminalWorld sea auténtico y escalable por construcción, lo que permite evaluar agentes en entornos de terminal del mundo real a medida que evolucionan las prácticas de los desarrolladores. Los datos y el código están disponibles en https://github.com/EuniAI/TerminalWorld.

English

We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.