Grondslagen voor Computergebruik-agents gebaseerd op Menselijke Demonstraties
Grounding Computer Use Agents on Human Demonstrations
November 10, 2025
Auteurs: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI
Samenvatting
Het ontwikkelen van betrouwbare computergebruik-agenten vereist grounding: het nauwkeurig verbinden van natuurlijke-taalinstructies met de juiste elementen op het scherm. Hoewel er grote datasets bestaan voor web- en mobiele interacties, zijn hoogwaardige bronnen voor desktopomgevingen beperkt. Om deze leemte op te vullen, introduceren wij GroundCUA, een grootschalige desktop-groundingdataset opgebouwd uit expertdemonstraties van mensen. Deze bestrijkt 87 applicaties in 12 categorieën en omvat 56K schermafbeeldingen, waarbij elk schermelement zorgvuldig is geannoteerd voor een totaal van meer dan 3.56 miljoen door mensen geverifieerde annotaties. Uit deze demonstraties genereren we diverse instructies die een breed scala aan real-world taken omvatten, waardoor hoogwaardige data voor modeltraining wordt verschaft. Met GroundCUA ontwikkelen we de GroundNext-familie van modellen die instructies afbeelden op hun doel-UI-elementen. Zowel op 3B- als 7B-schaal behaalt GroundNext state-of-the-art resultaten op vijf benchmarks met supervised fine-tuning, terwijl minder dan een tiende van de trainingsdata van eerder werk nodig is. Reinforcement learning na de training verbetert de prestaties verder, en wanneer geëvalueerd in een agentische setting op de OSWorld-benchmark met o3 als planner, bereikt GroundNext vergelijkbare of superieure resultaten ten opzichte van modellen die met aanzienlijk meer data zijn getraind. Deze resultaten tonen de cruciale rol aan van hoogwaardige, expert-gedreven datasets bij de vooruitgang van general-purpose computergebruik-agenten.
English
Building reliable computer-use agents requires grounding: accurately
connecting natural language instructions to the correct on-screen elements.
While large datasets exist for web and mobile interactions, high-quality
resources for desktop environments are limited. To address this gap, we
introduce GroundCUA, a large-scale desktop grounding dataset built from expert
human demonstrations. It covers 87 applications across 12 categories and
includes 56K screenshots, with every on-screen element carefully annotated for
a total of over 3.56M human-verified annotations. From these demonstrations, we
generate diverse instructions that capture a wide range of real-world tasks,
providing high-quality data for model training. Using GroundCUA, we develop the
GroundNext family of models that map instructions to their target UI elements.
At both 3B and 7B scales, GroundNext achieves state-of-the-art results across
five benchmarks using supervised fine-tuning, while requiring less than
one-tenth the training data of prior work. Reinforcement learning post-training
further improves performance, and when evaluated in an agentic setting on the
OSWorld benchmark using o3 as planner, GroundNext attains comparable or
superior results to models trained with substantially more data,. These results
demonstrate the critical role of high-quality, expert-driven datasets in
advancing general-purpose computer-use agents.