ChatPaper.aiChatPaper

Workspace-Bench 1.0: 대규모 파일 의존성을 갖는 워크스페이스 작업에서 AI 에이전트 성능 평가

Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

May 5, 2026
저자: Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Weizheng Wang, Hongzhang Huang, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Yuting Lv, Jinyang Li, Jiashuo Liu, Ruoyu Chen, Chunwei Liu, GuoLiang Li, Jihua Kang, Fan Wu
cs.AI

초록

작업공간 학습은 AI 에이전트가 작업자의 작업공간 내 이종 파일들 간의 명시적 및 암묵적 의존 관계를 식별, 추론, 활용, 갱신하여 일상적이고 고급 작업을 모두 효과적으로 완수할 수 있도록 요구합니다. 그 중요성에도 불구하고, 기존 관련 벤치마크는 주로 사전 지정되거나 합성된 파일로 제한된 실제 의존 관계를 가진 환경에서 에이전트를 평가하여 작업공간 수준 평가가 충분히 탐구되지 않았습니다. 이를 위해 우리는 대규모 파일 의존 관계를 포함하는 작업공간 학습에 대한 AI 에이전트 평가 벤치마크인 Workspace-Bench를 소개합니다. 우리는 5가지 작업자 프로필, 74개 파일 유형, 20,476개 파일(최대 20GB)로 구성된 현실적인 작업공간을 구축하고, 각각 고유의 파일 의존성 그래프를 가진 388개 작업을 선별하였으며, 이를 파일 간 검색, 맥락적 추론, 적응적 의사 결정을 요구하는 총 7,399개의 평가 기준으로 평가합니다. 우리는 더 나아가 벤치마크 분포를 유지하면서 평가 비용을 약 70% 절감하는 100개 작업으로 구성된 Workspace-Bench-Lite를 제공합니다. 우리는 4개의 인기 있는 에이전트 도구와 7개의 기초 모델을 평가했습니다. 실험 결과는 현재 에이전트들이 신뢰할 수 있는 작업공간 학습에는 아직 멀었음을 보여주며, 가장 성능이 좋은 에이전트도 68.7%에 그쳐 인간의 결과인 80.7%보다 현저히 낮고, 에이전트들의 평균 성능은 47.4%에 불과합니다.
English
Workspace learning requires AI agents to identify, reason over, exploit, and update explicit and implicit dependencies among heterogeneous files in a worker's workspace, enabling them to complete both routine and advanced tasks effectively. Despite its importance, existing relevant benchmarks largely evaluate agents on pre-specified or synthesized files with limited real-world dependencies, leaving workspace-level evaluation underexplored. To this end, we introduce Workspace-Bench, a benchmark for evaluating AI agents on Workspace Learning invOlving Large-Scale File Dependencies. We construct realistic workspaces with 5 worker profiles, 74 file types, 20,476 files (up to 20GB) and curate 388 tasks, each with its own file dependency graph, evaluated across 7,399 total rubrics that require cross-file retrieval, contextual reasoning, and adaptive decision-making. We further provide Workspace-Bench-Lite, a 100-task subset that preserves the benchmark distribution while reducing evaluation costs by about 70%. We evaluate 4 popular agent harnesses and 7 foundation models. Experimental results show that current agents remain far from reliable workspace learning, where the best reaches only 68.7%, substantially below the human result of 80.7%, and the average performance across agents is only 47.4%.
PDF21May 7, 2026