GUI-360: コンピュータ利用エージェントの包括的データセットとベンチマーク
GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents
November 6, 2025
著者: Jian Mu, Chaoyun Zhang, Chiming Ni, Lu Wang, Bo Qiao, Kartik Mathur, Qianhui Wu, Yuhang Xie, Xiaojun Ma, Mengyu Zhou, Si Qin, Liqun Li, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
cs.AI
要旨
我々はGUI-360^circを紹介する。これは大規模で包括的なデータセットおよびベンチマークスイートであり、コンピュータ利用エージェント(CUA)の進歩を目的としている。CUAには特有の課題があり、3つの持続的なギャップによって制約を受けている:実世界のCUAタスクの不足、マルチモーダル軌跡の自動収集・注釈パイプラインの欠如、GUIグラウンディング、画面解析、行動予測を統合的に評価する統一ベンチマークの不在である。
GUI-360^circは、LLMを活用した高度に自動化されたパイプライン(クエリ収集、環境テンプレート構築、タスク具体化、バッチ実行、LLM駆動の品質フィルタリング)によりこれらのギャップに対処する。公開されたコーパスには、一般的なWindowsオフィスアプリケーションにおける数千の軌跡にわたる120万以上の実行済みアクションステップが含まれ、フル解像度のスクリーンショット、利用可能な場合のアクセシビリティメタデータ、具体化された目標、中間推論トレース、成功および失敗した行動軌跡を網羅する。本データセットは、GUIグラウンディング、画面解析、行動予測という3つの基本タスク、および現代的なエージェント設計を反映したハイブリッドGUI+API行動空間をサポートする。GUI-360^circを用いた最先端の視覚言語モデルのベンチマーク評価では、グラウンディングと行動予測において実用的な性能に重大な欠陥があることが明らかとなった。教師ありファインチューニングと強化学習は大幅な改善をもたらすが、人間レベルの信頼性とのギャップを埋めるには至らない。我々はGUI-360^circと付属コードを公開し、再現可能な研究を促進し、堅牢なデスクトップCUAの進展を加速させる。
完全なデータセットは https://huggingface.co/datasets/vyokky/GUI-360 で公開されている。
English
We introduce GUI-360^circ, a large-scale, comprehensive dataset and
benchmark suite designed to advance computer-using agents (CUAs). CUAs present
unique challenges and is constrained by three persistent gaps: a scarcity of
real-world CUA tasks, the lack of automated collection-and-annotation pipelines
for multi-modal trajectories, and the absence of a unified benchmark that
jointly evaluates GUI grounding, screen parsing, and action prediction.
GUI-360^circ addresses these gaps with an LLM-augmented, largely automated
pipeline for query sourcing, environment-template construction, task
instantiation, batched execution, and LLM-driven quality filtering. The
released corpus contains over 1.2M executed action steps across thousands of
trajectories in popular Windows office applications, and includes
full-resolution screenshots, accessibility metadata when available,
instantiated goals, intermediate reasoning traces, and both successful and
failed action trajectories. The dataset supports three canonical tasks, GUI
grounding, screen parsing, and action prediction, and a hybrid GUI+API action
space that reflects modern agent designs. Benchmarking state-of-the-art
vision--language models on GUI-360^circ reveals substantial out-of-the-box
shortcomings in grounding and action prediction; supervised fine-tuning and
reinforcement learning yield significant gains but do not close the gap to
human-level reliability. We release GUI-360^circ and accompanying code to
facilitate reproducible research and accelerate progress on robust desktop
CUAs.
The full dataset has been made public on
https://huggingface.co/datasets/vyokky/GUI-360.