人間の実証に基づくコンピュータ利用エージェントの基盤構築
Grounding Computer Use Agents on Human Demonstrations
November 10, 2025
著者: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI
要旨
信頼性の高いコンピュータ操作エージェントの構築には、グラウンディング(自然言語指示と画面上の正しい要素との正確な関連付け)が不可欠です。ウェブやモバイル操作向けの大規模データセットは存在するものの、デスクトップ環境向けの高品質なリソースは限られています。このギャップを埋めるため、我々は専門家による人間の実演記録から構築した大規模デスクトップグラウンディングデータセット「GroundCUA」を提案します。本データセットは12カテゴリ87アプリケーションを網羅し、5万6千枚のスクリーンショットと、人間による検証を経た356万以上の要素注釈を含みます。これらの実演記録から、現実世界の多様なタスクを反映した豊富な指示文を生成し、モデル学習向けの高品質データを提供します。
GroundCUAを活用して開発した「GroundNext」モデルファミリーは、指示文と対象UI要素のマッピングを実現します。3Bパラメータと7Bパラメータの両規模において、教師ありファインチューニングのみで5つのベンチマークでState-of-the-artを達成し、従来研究の10分の1以下の学習データ量でこれを実現しました。強化学習による事後学習で性能がさらに向上し、OSWorldベンチマークにおけるエージェント評価(o3をプランナーとして使用)では、大幅に多いデータで学習したモデルと同等または優れた結果を示しました。これらの結果は、汎用コンピュータ操作エージェントの発展において、専門家主導の高品質データセットが決定的に重要であることを実証しています。
English
Building reliable computer-use agents requires grounding: accurately
connecting natural language instructions to the correct on-screen elements.
While large datasets exist for web and mobile interactions, high-quality
resources for desktop environments are limited. To address this gap, we
introduce GroundCUA, a large-scale desktop grounding dataset built from expert
human demonstrations. It covers 87 applications across 12 categories and
includes 56K screenshots, with every on-screen element carefully annotated for
a total of over 3.56M human-verified annotations. From these demonstrations, we
generate diverse instructions that capture a wide range of real-world tasks,
providing high-quality data for model training. Using GroundCUA, we develop the
GroundNext family of models that map instructions to their target UI elements.
At both 3B and 7B scales, GroundNext achieves state-of-the-art results across
five benchmarks using supervised fine-tuning, while requiring less than
one-tenth the training data of prior work. Reinforcement learning post-training
further improves performance, and when evaluated in an agentic setting on the
OSWorld benchmark using o3 as planner, GroundNext attains comparable or
superior results to models trained with substantially more data,. These results
demonstrate the critical role of high-quality, expert-driven datasets in
advancing general-purpose computer-use agents.