ChatPaper.aiChatPaper

Заземление агентов компьютерного использования на основе демонстраций человека

Grounding Computer Use Agents on Human Demonstrations

November 10, 2025
Авторы: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI

Аннотация

Создание надежных агентов для работы с компьютером требует точного соотнесения (grounding): корректного связывания инструкций на естественном языке с соответствующими элементами на экране. Хотя существуют крупные наборы данных для веб- и мобильных взаимодействий, качественные ресурсы для десктопных сред ограничены. Чтобы восполнить этот пробел, мы представляем GroundCUA — масштабный набор данных для соотнесения в десктопной среде, созданный на основе экспертных демонстраций человека. Он охватывает 87 приложений из 12 категорий и включает 56 тыс. снимков экрана, причем каждый элемент интерфейса тщательно аннотирован, что в сумме дает более 3,56 млн аннотаций, проверенных человеком. На основе этих демонстраций мы генерируем разнообразные инструкции, отражающие широкий спектр реальных задач, обеспечивая высококачественные данные для обучения моделей. Используя GroundCUA, мы разработали семейство моделей GroundNext, которые сопоставляют инструкции с целевыми элементами пользовательского интерфейса. В конфигурациях на 3 и 7 миллиардов параметров GroundNext достигает передовых результатов на пяти бенчмарках при обучении с учителем, требуя при этом менее одной десятой части обучающих данных по сравнению с предыдущими работами. Дополнительное обучение с подкреплением еще больше улучшает производительность, и при оценке в агентской среде на бенчмарке OSWorld с использованием o3 в качестве планировщика, GroundNext демонстрирует сопоставимые или превосходящие результаты по сравнению с моделями, обученными на значительно большем объеме данных. Эти результаты подчеркивают ключевую роль высококачественных наборов данных, созданных при участии экспертов, в развитии универсальных агентов для работы с компьютером.
English
Building reliable computer-use agents requires grounding: accurately connecting natural language instructions to the correct on-screen elements. While large datasets exist for web and mobile interactions, high-quality resources for desktop environments are limited. To address this gap, we introduce GroundCUA, a large-scale desktop grounding dataset built from expert human demonstrations. It covers 87 applications across 12 categories and includes 56K screenshots, with every on-screen element carefully annotated for a total of over 3.56M human-verified annotations. From these demonstrations, we generate diverse instructions that capture a wide range of real-world tasks, providing high-quality data for model training. Using GroundCUA, we develop the GroundNext family of models that map instructions to their target UI elements. At both 3B and 7B scales, GroundNext achieves state-of-the-art results across five benchmarks using supervised fine-tuning, while requiring less than one-tenth the training data of prior work. Reinforcement learning post-training further improves performance, and when evaluated in an agentic setting on the OSWorld benchmark using o3 as planner, GroundNext attains comparable or superior results to models trained with substantially more data,. These results demonstrate the critical role of high-quality, expert-driven datasets in advancing general-purpose computer-use agents.
PDF1034December 2, 2025