ChatPaper.aiChatPaper

Fundamentación de Agentes de Uso Informático en Demostraciones Humanas

Grounding Computer Use Agents on Human Demonstrations

November 10, 2025
Autores: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI

Resumen

La construcción de agentes de uso informático confiables requiere una base sólida: conectar con precisión las instrucciones en lenguaje natural a los elementos correctos en pantalla. Si bien existen grandes conjuntos de datos para interacciones web y móviles, los recursos de alta calidad para entornos de escritorio son limitados. Para abordar esta brecha, presentamos GroundCUA, un conjunto de datos de anclaje a escritorio a gran escala construido a partir de demostraciones humanas expertas. Cubre 87 aplicaciones en 12 categorías e incluye 56K capturas de pantalla, con cada elemento en pantalla cuidadosamente anotado, sumando un total de más de 3.56 millones de anotaciones verificadas por humanos. A partir de estas demostraciones, generamos instrucciones diversas que capturan una amplia gama de tareas del mundo real, proporcionando datos de alta calidad para el entrenamiento de modelos. Utilizando GroundCUA, desarrollamos la familia de modelos GroundNext que mapean instrucciones a sus elementos de interfaz de usuario objetivo. Tanto en escalas de 3B como de 7B, GroundNext logra resultados de vanguardia en cinco puntos de referencia utilizando ajuste supervisado, mientras requiere menos de una décima parte de los datos de entrenamiento de trabajos anteriores. El entrenamiento posterior con aprendizaje por refuerzo mejora aún más el rendimiento, y cuando se evalúa en un entorno de agente en el benchmark OSWorld usando o3 como planificador, GroundNext alcanza resultados comparables o superiores a los modelos entrenados con sustancialmente más datos. Estos resultados demuestran el papel crítico de los conjuntos de datos de alta calidad y guiados por expertos en el avance de los agentes de uso informático de propósito general.
English
Building reliable computer-use agents requires grounding: accurately connecting natural language instructions to the correct on-screen elements. While large datasets exist for web and mobile interactions, high-quality resources for desktop environments are limited. To address this gap, we introduce GroundCUA, a large-scale desktop grounding dataset built from expert human demonstrations. It covers 87 applications across 12 categories and includes 56K screenshots, with every on-screen element carefully annotated for a total of over 3.56M human-verified annotations. From these demonstrations, we generate diverse instructions that capture a wide range of real-world tasks, providing high-quality data for model training. Using GroundCUA, we develop the GroundNext family of models that map instructions to their target UI elements. At both 3B and 7B scales, GroundNext achieves state-of-the-art results across five benchmarks using supervised fine-tuning, while requiring less than one-tenth the training data of prior work. Reinforcement learning post-training further improves performance, and when evaluated in an agentic setting on the OSWorld benchmark using o3 as planner, GroundNext attains comparable or superior results to models trained with substantially more data,. These results demonstrate the critical role of high-quality, expert-driven datasets in advancing general-purpose computer-use agents.
PDF1034December 2, 2025