Workspace-Bench 1.0: Evaluación de Agentes de IA en Tareas de Espacio de Trabajo con Dependencias de Archivos a Gran Escala

Resumen

El aprendizaje en el espacio de trabajo requiere que los agentes de IA identifiquen, razonen sobre, exploten y actualicen las dependencias explícitas e implícitas entre archivos heterogéneos en el espacio de trabajo de un usuario, permitiéndoles completar tanto tareas rutinarias como avanzadas de manera efectiva. A pesar de su importancia, los puntos de referencia existentes evalúan principalmente a los agentes en archivos predefinidos o sintetizados con dependencias del mundo real limitadas, dejando la evaluación a nivel del espacio de trabajo poco explorada. Para ello, presentamos Workspace-Bench, un punto de referencia para evaluar a los agentes de IA en el Aprendizaje en el Espacio de Trabajo que implica Dependencias de Archivos a Gran Escala. Construimos espacios de trabajo realistas con 5 perfiles de usuario, 74 tipos de archivo, 20.476 archivos (hasta 20 GB) y seleccionamos 388 tareas, cada una con su propio grafo de dependencias de archivos, evaluadas en 7.399 rúbricas en total que requieren recuperación de archivos cruzados, razonamiento contextual y toma de decisiones adaptativa. Además, ofrecemos Workspace-Bench-Lite, un subconjunto de 100 tareas que preserva la distribución del punto de referencia mientras reduce los costes de evaluación en aproximadamente un 70%. Evaluamos 4 plataformas de agentes populares y 7 modelos fundacionales. Los resultados experimentales muestran que los agentes actuales distan de ser confiables en el aprendizaje del espacio de trabajo, donde el mejor alcanza solo un 68,7 %, sustancialmente por debajo del resultado humano del 80,7 %, y el rendimiento promedio entre los agentes es de solo 47,4 %.

English

Workspace learning requires AI agents to identify, reason over, exploit, and update explicit and implicit dependencies among heterogeneous files in a worker's workspace, enabling them to complete both routine and advanced tasks effectively. Despite its importance, existing relevant benchmarks largely evaluate agents on pre-specified or synthesized files with limited real-world dependencies, leaving workspace-level evaluation underexplored. To this end, we introduce Workspace-Bench, a benchmark for evaluating AI agents on Workspace Learning invOlving Large-Scale File Dependencies. We construct realistic workspaces with 5 worker profiles, 74 file types, 20,476 files (up to 20GB) and curate 388 tasks, each with its own file dependency graph, evaluated across 7,399 total rubrics that require cross-file retrieval, contextual reasoning, and adaptive decision-making. We further provide Workspace-Bench-Lite, a 100-task subset that preserves the benchmark distribution while reducing evaluation costs by about 70%. We evaluate 4 popular agent harnesses and 7 foundation models. Experimental results show that current agents remain far from reliable workspace learning, where the best reaches only 68.7%, substantially below the human result of 80.7%, and the average performance across agents is only 47.4%.

Workspace-Bench 1.0: Evaluación de Agentes de IA en Tareas de Espacio de Trabajo con Dependencias de Archivos a Gran Escala

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

Resumen

Support