ChatPaper.aiChatPaper

Ancrage des agents informatiques sur les démonstrations humaines

Grounding Computer Use Agents on Human Demonstrations

November 10, 2025
papers.authors: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI

papers.abstract

La construction d'agents informatiques fiables nécessite un ancrage précis : la capacité à relier exactement les instructions en langage naturel aux éléments d'interface correspondants. Si d'importantes bases de données existent pour les interactions web et mobiles, les ressources de qualité pour les environnements de bureau restent limitées. Pour combler cette lacune, nous présentons GroundCUA, un jeu de données d'ancrage à grande échelle constitué à partir de démonstrations humaines expertes. Il couvre 87 applications réparties dans 12 catégories et inclut 56 000 captures d'écran, où chaque élément visuel est soigneusement annoté pour un total de plus de 3,56 millions d'annotations vérifiées manuellement. À partir de ces démonstrations, nous générons des instructions variées reflétant un large éventail de tâches réelles, fournissant ainsi des données de haute qualité pour l'entraînement des modèles. En utilisant GroundCUA, nous développons la famille de modèles GroundNext qui associe les instructions à leurs éléments d'interface cibles. Aux échelles 3B et 7B, GroundNext obtient des résultats state-of-the-art sur cinq benchmarks grâce à un fine-tuning supervisé, tout en nécessitant moins d'un dixième des données d'entraînement des travaux antérieurs. Un post-entraînement par apprentissage par renforcement améliore encore les performances, et lorsqu'il est évalué dans un cadre agentique sur le benchmark OSWorld avec o3 comme planificateur, GroundNext atteint des résultats comparables ou supérieurs à ceux des modèles entraînés avec nettement plus de données. Ces résultats démontrent le rôle crucial des jeux de données experts de haute qualité pour faire progresser les agents informatiques généralistes.
English
Building reliable computer-use agents requires grounding: accurately connecting natural language instructions to the correct on-screen elements. While large datasets exist for web and mobile interactions, high-quality resources for desktop environments are limited. To address this gap, we introduce GroundCUA, a large-scale desktop grounding dataset built from expert human demonstrations. It covers 87 applications across 12 categories and includes 56K screenshots, with every on-screen element carefully annotated for a total of over 3.56M human-verified annotations. From these demonstrations, we generate diverse instructions that capture a wide range of real-world tasks, providing high-quality data for model training. Using GroundCUA, we develop the GroundNext family of models that map instructions to their target UI elements. At both 3B and 7B scales, GroundNext achieves state-of-the-art results across five benchmarks using supervised fine-tuning, while requiring less than one-tenth the training data of prior work. Reinforcement learning post-training further improves performance, and when evaluated in an agentic setting on the OSWorld benchmark using o3 as planner, GroundNext attains comparable or superior results to models trained with substantially more data,. These results demonstrate the critical role of high-quality, expert-driven datasets in advancing general-purpose computer-use agents.
PDF1034December 2, 2025