TerminalWorld: Бенчмаркинг агентов на реальных терминальных задачах

Аннотация

Мы представляем TerminalWorld — масштабируемый механизм обработки данных, который автоматически восстанавливает задачи оценки высокой точности на основе «реальных» записей терминалов. Обработав 80 870 таких записей, механизм формирует полный эталонный набор (бенчмарк) из 1 530 проверенных задач, охватывающих 18 реальных категорий — от коротких повседневных операций до рабочих процессов, состоящих более чем из 50 шагов, и включающих 1 280 уникальных команд. На их основе мы отобрали проверенный поднабор из 200 репрезентативных задач, вручную отрецензированных. Комплексное тестирование на TerminalWorld-Verified с использованием восьми передовых моделей и шести агентов показывает, что современные системы всё ещё испытывают трудности с подлинными рабочими процессами в терминалах, достигая максимального процента успешного выполнения лишь 62,5%. Более того, TerminalWorld отражает реальные возможности работы с терминалом, которые отличаются от существующих экспертно составленных бенчмарков (например, Terminal-Bench); наблюдается лишь слабая корреляция с их показателями (коэффициент корреляции Пирсона r = 0,20). Автоматический механизм делает TerminalWorld изначально аутентичным и масштабируемым, позволяя оценивать агентов в реальных терминальных средах по мере развития практик разработчиков. Данные и код доступны по адресу https://github.com/EuniAI/TerminalWorld.

English

We introduce TerminalWorld, a scalable data engine that automatically reverse-engineers high-fidelity evaluation tasks from "in-the-wild" terminal recordings. Processing 80,870 terminal recordings, the engine yields a full benchmark of 1,530 validated tasks, spanning 18 real-world categories, ranging from short everyday operations to workflows exceeding 50 steps, and covering 1,280 unique commands. From these, we curate a Verified subset of 200 representative, manually reviewed tasks. Comprehensive benchmarking on TerminalWorld-Verified across eight frontier models and six agents reveals that current systems still struggle with authentic terminal workflows, achieving a maximum pass rate of only 62.5%. Moreover, TerminalWorld captures real-world terminal capabilities distinct from existing expert-curated benchmarks (e.g., Terminal-Bench), with only a weak correlation to their scores (Pearson r=0.20). The automated engine makes TerminalWorld authentic and scalable by construction, enabling it to evaluate agents in real-world terminal environments as developer practices evolve. Data and code are available at https://github.com/EuniAI/TerminalWorld.