ChatPaper.aiChatPaper

Verankerung von Computer-Nutzungsagenten in menschlichen Demonstrationen

Grounding Computer Use Agents on Human Demonstrations

November 10, 2025
papers.authors: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI

papers.abstract

Die Entwicklung zuverlässiger Computerbedienungsagenten erfordert Grounding: die präzise Verknüpfung natürlicher Sprachbefehle mit den korrekten Bildschirmelementen. Während umfangreiche Datensätze für Web- und Mobile-Interaktionen existieren, sind hochwertige Ressourcen für Desktop-Umgebungen begrenzt. Um diese Lücke zu schließen, stellen wir GroundCUA vor, einen groß angelegten Desktop-Grounding-Datensatz, der auf Experten-Demonstrationen basiert. Er umfasst 87 Anwendungen aus 12 Kategorien und beinhaltet 56.000 Bildschirmfotos, wobei jedes Bildschirmelement sorgfältig annotiert ist – insgesamt über 3,56 Millionen menschlich geprüfte Annotationen. Aus diesen Demonstrationen generieren wir vielfältige Befehle, die ein breites Spektrum realer Aufgaben abdecken und hochwertige Daten für das Modelltraining bereitstellen. Mit GroundCUA entwickeln wir die GroundNext-Modellfamilie, die Befehle auf ihre Ziel-UI-Elemente abbildet. Sowohl in 3B- als auch 7B-Größen erzielt GroundNext mittels supervised Fine-Tuning state-of-the-art Ergebnisse über fünf Benchmarks hinweg, benötigt dabei aber weniger als ein Zehntel der Trainingsdaten früherer Arbeiten. Reinforcement Learning nach dem Training verbessert die Leistung weiter, und in einer agentenbasierten Evaluation auf dem OSWorld-Benchmark mit o3 als Planer erreicht GroundNext vergleichbare oder überlegene Ergebnisse gegenüber Modellen, die mit erheblich mehr Daten trainiert wurden. Diese Ergebnisse demonstrieren die entscheidende Rolle hochwertiger, expertenbasierter Datensätze für die Weiterentwicklung universeller Computerbedienungsagenten.
English
Building reliable computer-use agents requires grounding: accurately connecting natural language instructions to the correct on-screen elements. While large datasets exist for web and mobile interactions, high-quality resources for desktop environments are limited. To address this gap, we introduce GroundCUA, a large-scale desktop grounding dataset built from expert human demonstrations. It covers 87 applications across 12 categories and includes 56K screenshots, with every on-screen element carefully annotated for a total of over 3.56M human-verified annotations. From these demonstrations, we generate diverse instructions that capture a wide range of real-world tasks, providing high-quality data for model training. Using GroundCUA, we develop the GroundNext family of models that map instructions to their target UI elements. At both 3B and 7B scales, GroundNext achieves state-of-the-art results across five benchmarks using supervised fine-tuning, while requiring less than one-tenth the training data of prior work. Reinforcement learning post-training further improves performance, and when evaluated in an agentic setting on the OSWorld benchmark using o3 as planner, GroundNext attains comparable or superior results to models trained with substantially more data,. These results demonstrate the critical role of high-quality, expert-driven datasets in advancing general-purpose computer-use agents.
PDF1034December 2, 2025