TerminalWorld: Avaliando Agentes em Tarefas Reais de Terminal

Resumo

Apresentamos o TerminalWorld, um mecanismo de dados escalável que automaticamente faz engenharia reversa de tarefas de avaliação de alta fidelidade a partir de gravações de terminal "in-the-wild". Processando 80.870 gravações de terminal, o mecanismo produz um benchmark completo de 1.530 tarefas validadas, abrangendo 18 categorias do mundo real, desde operações cotidianas curtas até fluxos de trabalho que excedem 50 etapas, e cobrindo 1.280 comandos únicos. A partir destas, curamos um subconjunto Verificado de 200 tarefas representativas, revisadas manualmente. Uma avaliação comparativa abrangente no TerminalWorld-Verified com oito modelos de ponta e seis agentes revela que os sistemas atuais ainda têm dificuldades com fluxos de trabalho autênticos de terminal, alcançando uma taxa de aprovação máxima de apenas 62,5%. Além disso, o TerminalWorld captura capacidades reais de terminal distintas dos benchmarks existentes curados por especialistas (por exemplo, Terminal-Bench), com apenas uma correlação fraca com suas pontuações (Pearson r=0,20). O mecanismo automatizado torna o TerminalWorld autêntico e escalável por construção, permitindo avaliar agentes em ambientes de terminal do mundo real à medida que as práticas dos desenvolvedores evoluem. Os dados e o código estão disponíveis em https://github.com/EuniAI/TerminalWorld.

English

We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.