Fundamentando Agentes de Uso de Computador em Demonstrações Humanas
Grounding Computer Use Agents on Human Demonstrations
November 10, 2025
Autores: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI
Resumo
A construção de agentes confiáveis de uso de computador requer *grounding*: a conexão precisa de instruções em linguagem natural com os elementos corretos na tela. Embora existam grandes conjuntos de dados para interações web e móveis, recursos de alta qualidade para ambientes de desktop são limitados. Para preencher essa lacuna, apresentamos o GroundCUA, um grande conjunto de dados de *grounding* para desktop construído a partir de demonstrações humanas especializadas. Ele abrange 87 aplicativos em 12 categorias e inclui 56 mil capturas de tela, com cada elemento na tela cuidadosamente anotado, totalizando mais de 3,56 milhões de anotações verificadas por humanos. A partir dessas demonstrações, geramos instruções diversas que capturam uma ampla gama de tarefas do mundo real, fornecendo dados de alta qualidade para o treinamento de modelos.
Usando o GroundCUA, desenvolvemos a família de modelos GroundNext, que mapeia instruções para seus elementos de interface do usuário (UI) de destino. Tanto na escala de 3B quanto de 7B, o GroundNext alcança resultados de última geração em cinco *benchmarks* usando ajuste fino supervisionado, enquanto requer menos de um décimo dos dados de treinamento de trabalhos anteriores. O pós-treinamento com aprendizado por reforço melhora ainda mais o desempenho, e quando avaliado em um cenário de agente no *benchmark* OSWorld usando o o3 como planejador, o GroundNext atinge resultados comparáveis ou superiores aos modelos treinados com substancialmente mais dados. Esses resultados demonstram o papel crítico de conjuntos de dados de alta qualidade e orientados por especialistas no avanço de agentes de uso de computador de propósito geral.
English
Building reliable computer-use agents requires grounding: accurately
connecting natural language instructions to the correct on-screen elements.
While large datasets exist for web and mobile interactions, high-quality
resources for desktop environments are limited. To address this gap, we
introduce GroundCUA, a large-scale desktop grounding dataset built from expert
human demonstrations. It covers 87 applications across 12 categories and
includes 56K screenshots, with every on-screen element carefully annotated for
a total of over 3.56M human-verified annotations. From these demonstrations, we
generate diverse instructions that capture a wide range of real-world tasks,
providing high-quality data for model training. Using GroundCUA, we develop the
GroundNext family of models that map instructions to their target UI elements.
At both 3B and 7B scales, GroundNext achieves state-of-the-art results across
five benchmarks using supervised fine-tuning, while requiring less than
one-tenth the training data of prior work. Reinforcement learning post-training
further improves performance, and when evaluated in an agentic setting on the
OSWorld benchmark using o3 as planner, GroundNext attains comparable or
superior results to models trained with substantially more data,. These results
demonstrate the critical role of high-quality, expert-driven datasets in
advancing general-purpose computer-use agents.