Workspace-Bench 1.0: Бенчмаркинг ИИ-агентов на задачах в рабочей среде с крупномасштабными файловыми зависимостями

Аннотация

Обучение в рабочей среде требует от ИИ-агентов способности выявлять, анализировать, использовать и обновлять явные и неявные зависимости между гетерогенными файлами в рабочем пространстве пользователя, что позволяет им эффективно выполнять как рутинные, так и сложные задачи. Несмотря на важность этой задачи, существующие релевантные бенчмарки в основном оценивают агентов на предопределенных или синтезированных файлах с ограниченными реальными зависимостями, оставляя оценку на уровне рабочей среды недостаточно изученной. Для решения этой проблемы мы представляем Workspace-Bench — бенчмарк для оценки ИИ-агентов на задачах обучения в рабочей среде, связанных с крупномасштабными файловыми зависимостями. Мы создали реалистичные рабочие среды с 5 профилями пользователей, 74 типами файлов, 20 476 файлами (объемом до 20 ГБ) и отобрали 388 задач, каждая из которых имеет собственную графовую структуру файловых зависимостей. Оценка проводится по 7 399 критериям, требующим межфайлового поиска, контекстного анализа и адаптивного принятия решений. Дополнительно мы предоставляем Workspace-Bench-Lite — подмножество из 100 задач, которое сохраняет распределение бенчмарка, сокращая при этом стоимость оценки примерно на 70%. Мы оценили 4 популярных фреймворка для агентов и 7 базовых моделей. Результаты экспериментов показывают, что современные агенты еще далеки от надежного обучения в рабочей среде: лучший из них достигает всего 68,7%, что существенно ниже человеческого результата в 80,7%, а средняя производительность по агентам составляет лишь 47,4%.

English

Workspace learning requires AI agents to identify, reason over, exploit, and update explicit and implicit dependencies among heterogeneous files in a worker's workspace, enabling them to complete both routine and advanced tasks effectively. Despite its importance, existing relevant benchmarks largely evaluate agents on pre-specified or synthesized files with limited real-world dependencies, leaving workspace-level evaluation underexplored. To this end, we introduce Workspace-Bench, a benchmark for evaluating AI agents on Workspace Learning invOlving Large-Scale File Dependencies. We construct realistic workspaces with 5 worker profiles, 74 file types, 20,476 files (up to 20GB) and curate 388 tasks, each with its own file dependency graph, evaluated across 7,399 total rubrics that require cross-file retrieval, contextual reasoning, and adaptive decision-making. We further provide Workspace-Bench-Lite, a 100-task subset that preserves the benchmark distribution while reducing evaluation costs by about 70%. We evaluate 4 popular agent harnesses and 7 foundation models. Experimental results show that current agents remain far from reliable workspace learning, where the best reaches only 68.7%, substantially below the human result of 80.7%, and the average performance across agents is only 47.4%.

Workspace-Bench 1.0: Бенчмаркинг ИИ-агентов на задачах в рабочей среде с крупномасштабными файловыми зависимостями

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

Аннотация

Support