Workspace-Bench 1.0: 大規模ファイル依存関係を伴うワークスペースタスクにおけるAIエージェントのベンチマーキング
Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies
May 5, 2026
著者: Zirui Tang, Xuanhe Zhou, Yumou Liu, Linchun Li, Weizheng Wang, Hongzhang Huang, Jun Zhou, Jiachen Song, Shaoli Yu, Jinqi Wang, Zihang Zhou, Hongyi Zhou, Yuting Lv, Jinyang Li, Jiashuo Liu, Ruoyu Chen, Chunwei Liu, GuoLiang Li, Jihua Kang, Fan Wu
cs.AI
要旨
ワークスペース学習は、AIエージェントが作業者のワークスペース内にある異種ファイル間の明示的・暗黙的な依存関係を特定し、推論し、利用し、更新することで、日常的なタスクから高度なタスクまでを効果的に完了できるようにすることを必要とします。その重要性にもかかわらず、既存の関連ベンチマークは、事前に指定されたファイルや合成されたファイルに限られた現実世界の依存関係でエージェントを評価することがほとんどであり、ワークスペースレベルの評価は未開拓のままです。この課題に対処するため、我々は大規模ファイル依存関係を伴うワークスペース学習においてAIエージェントを評価するベンチマーク「Workspace-Bench」を提案します。5つの作業者プロファイル、74のファイルタイプ、20,476ファイル(最大20GB)からなる現実的なワークスペースを構築し、各タスクが独自のファイル依存グラフを持つ388のタスクを精選しました。これらは、ファイル横断的な検索、文脈に基づく推論、適応的な意思決定を必要とする合計7,399の評価基準で評価されます。さらに、ベンチマークの分布を保ちながら評価コストを約70%削減した100タスクのサブセット「Workspace-Bench-Lite」も提供します。4つの一般的なエージェントハーネスと7つの基盤モデルを評価した結果、現在のエージェントは信頼性の高いワークスペース学習には程遠く、最高性能でも68.7%に留まり、人間の結果である80.7%を大幅に下回りました。エージェント全体の平均性能はわずか47.4%でした。
English
Workspace learning requires AI agents to identify, reason over, exploit, and update explicit and implicit dependencies among heterogeneous files in a worker's workspace, enabling them to complete both routine and advanced tasks effectively. Despite its importance, existing relevant benchmarks largely evaluate agents on pre-specified or synthesized files with limited real-world dependencies, leaving workspace-level evaluation underexplored. To this end, we introduce Workspace-Bench, a benchmark for evaluating AI agents on Workspace Learning invOlving Large-Scale File Dependencies. We construct realistic workspaces with 5 worker profiles, 74 file types, 20,476 files (up to 20GB) and curate 388 tasks, each with its own file dependency graph, evaluated across 7,399 total rubrics that require cross-file retrieval, contextual reasoning, and adaptive decision-making. We further provide Workspace-Bench-Lite, a 100-task subset that preserves the benchmark distribution while reducing evaluation costs by about 70%. We evaluate 4 popular agent harnesses and 7 foundation models. Experimental results show that current agents remain far from reliable workspace learning, where the best reaches only 68.7%, substantially below the human result of 80.7%, and the average performance across agents is only 47.4%.