Workspace-Bench 1.0: Evaluación de Agentes de IA en Tareas de Espacio de Trabajo con Dependencias de Archivos a Gran Escala
Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
May 5, 2026
Autores: Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Weizheng Wang, Hongzhang Huang, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Yuting Lv, Jinyang Li, Jiashuo Liu, Ruoyu Chen, Chunwei Liu, GuoLiang Li, Jihua Kang, Fan Wu
cs.AI
Resumen
El aprendizaje en el espacio de trabajo requiere que los agentes de IA identifiquen, razonen sobre, exploten y actualicen las dependencias explícitas e implícitas entre archivos heterogéneos en el espacio de trabajo de un usuario, permitiéndoles completar tanto tareas rutinarias como avanzadas de manera efectiva. A pesar de su importancia, los puntos de referencia existentes evalúan principalmente a los agentes en archivos predefinidos o sintetizados con dependencias del mundo real limitadas, dejando la evaluación a nivel del espacio de trabajo poco explorada. Para ello, presentamos Workspace-Bench, un punto de referencia para evaluar a los agentes de IA en el Aprendizaje en el Espacio de Trabajo que implica Dependencias de Archivos a Gran Escala. Construimos espacios de trabajo realistas con 5 perfiles de usuario, 74 tipos de archivo, 20.476 archivos (hasta 20 GB) y seleccionamos 388 tareas, cada una con su propio grafo de dependencias de archivos, evaluadas en 7.399 rúbricas en total que requieren recuperación de archivos cruzados, razonamiento contextual y toma de decisiones adaptativa. Además, ofrecemos Workspace-Bench-Lite, un subconjunto de 100 tareas que preserva la distribución del punto de referencia mientras reduce los costes de evaluación en aproximadamente un 70%. Evaluamos 4 plataformas de agentes populares y 7 modelos fundacionales. Los resultados experimentales muestran que los agentes actuales distan de ser confiables en el aprendizaje del espacio de trabajo, donde el mejor alcanza solo un 68,7 %, sustancialmente por debajo del resultado humano del 80,7 %, y el rendimiento promedio entre los agentes es de solo 47,4 %.
English
Workspace learning requires AI agents to identify, reason over, exploit, and update explicit and implicit dependencies among heterogeneous files in a worker's workspace, enabling them to complete both routine and advanced tasks effectively. Despite its importance, existing relevant benchmarks largely evaluate agents on pre-specified or synthesized files with limited real-world dependencies, leaving workspace-level evaluation underexplored. To this end, we introduce Workspace-Bench, a benchmark for evaluating AI agents on Workspace Learning invOlving Large-Scale File Dependencies. We construct realistic workspaces with 5 worker profiles, 74 file types, 20,476 files (up to 20GB) and curate 388 tasks, each with its own file dependency graph, evaluated across 7,399 total rubrics that require cross-file retrieval, contextual reasoning, and adaptive decision-making. We further provide Workspace-Bench-Lite, a 100-task subset that preserves the benchmark distribution while reducing evaluation costs by about 70%. We evaluate 4 popular agent harnesses and 7 foundation models. Experimental results show that current agents remain far from reliable workspace learning, where the best reaches only 68.7%, substantially below the human result of 80.7%, and the average performance across agents is only 47.4%.