Ancorare gli Agenti di Utilizzo del Computer alle Dimostrazioni Umane
Grounding Computer Use Agents on Human Demonstrations
November 10, 2025
Autori: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI
Abstract
La creazione di agenti affidabili per l'uso del computer richiede il *grounding*: la capacità di collegare accuratamente le istruzioni in linguaggio naturale ai corretti elementi sullo schermo. Sebbene esistano grandi dataset per le interazioni web e mobili, le risorse di alta qualità per gli ambienti desktop sono limitate. Per colmare questa lacuna, presentiamo GroundCUA, un ampio dataset di *grounding* per desktop costruito a partire da dimostrazioni umane esperte. Esso copre 87 applicazioni in 12 categorie e include 56.000 screenshot, con ogni elemento sullo schermo accuratamente annotato per un totale di oltre 3,56 milioni di annotazioni verificate da esseri umani. Da queste dimostrazioni, generiamo istruzioni diversificate che catturano un'ampia gamma di compiti del mondo reale, fornendo dati di alta qualità per l'addestramento dei modelli. Utilizzando GroundCUA, sviluppiamo la famiglia di modelli GroundNext che mappano le istruzioni ai relativi elementi dell'interfaccia utente target. Sia nella versione da 3B che in quella da 7B di parametri, GroundNext ottiene risultati all'avanguardia su cinque benchmark utilizzando la messa a punto supervisionata, richiedendo meno di un decimo dei dati di addestramento rispetto ai lavori precedenti. L'addestramento successivo con rinforzo migliora ulteriormente le prestazioni e, quando valutato in un contesto agentico sul benchmark OSWorld utilizzando o3 come pianificatore, GroundNext raggiunge risultati comparabili o superiori a modelli addestrati con quantità di dati sostanzialmente maggiori. Questi risultati dimostrano il ruolo cruciale di dataset di alta qualità, guidati da esperti, nel far progredire gli agenti per l'uso del computer a scopo generale.
English
Building reliable computer-use agents requires grounding: accurately
connecting natural language instructions to the correct on-screen elements.
While large datasets exist for web and mobile interactions, high-quality
resources for desktop environments are limited. To address this gap, we
introduce GroundCUA, a large-scale desktop grounding dataset built from expert
human demonstrations. It covers 87 applications across 12 categories and
includes 56K screenshots, with every on-screen element carefully annotated for
a total of over 3.56M human-verified annotations. From these demonstrations, we
generate diverse instructions that capture a wide range of real-world tasks,
providing high-quality data for model training. Using GroundCUA, we develop the
GroundNext family of models that map instructions to their target UI elements.
At both 3B and 7B scales, GroundNext achieves state-of-the-art results across
five benchmarks using supervised fine-tuning, while requiring less than
one-tenth the training data of prior work. Reinforcement learning post-training
further improves performance, and when evaluated in an agentic setting on the
OSWorld benchmark using o3 as planner, GroundNext attains comparable or
superior results to models trained with substantially more data,. These results
demonstrate the critical role of high-quality, expert-driven datasets in
advancing general-purpose computer-use agents.