ChatPaper.aiChatPaper

컴퓨터 사용 에이전트의 인간 시연 기반 학습

Grounding Computer Use Agents on Human Demonstrations

November 10, 2025
저자: Aarash Feizi, Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Kaixin Li, Rabiul Awal, Xing Han Lù, Johan Obando-Ceron, Juan A. Rodriguez, Nicolas Chapados, David Vazquez, Adriana Romero-Soriano, Reihaneh Rabbany, Perouz Taslakian, Christopher Pal, Spandana Gella, Sai Rajeswar
cs.AI

초록

신뢰할 수 있는 컴퓨터 사용 에이전트 구축에는 정확한 접지(Grounding), 즉 자연어 지시를 정확한 화면 요소와 연결하는 작업이 필요합니다. 웹 및 모바일 상호작용을 위한 대규모 데이터셋은 존재하지만, 데스크톱 환경을 위한 고품질 자료는 제한적입니다. 이러한 격차를 해소하기 위해 우리는 전문가의 인간 실증 데이터를 기반으로 구축된 대규모 데스크톱 접지 데이터셋인 GroundCUA를 소개합니다. 이 데이터셋은 12개 범주의 87개 애플리케이션을 포괄하며, 56K개의 스크린샷과 모든 화면 요소에 대해 신중하게 주석이 달린 총 3.56M개 이상의 인간 검증 주석을 포함합니다. 이러한 실증 데이터에서 우리는 다양한 실제 작업을 포착하는 다양한 지시문을 생성하여 모델 학습을 위한 고품질 데이터를 제공합니다. GroundCUA를 활용하여 우리는 지시문을 대상 UI 요소에 매핑하는 GroundNext 모델 패밀리를 개발했습니다. 3B와 7B 규모 모두에서 GroundNext는 지도 미세 조정을 통해 5개 벤치마크에서 최첨단 성능을 달성했으며, 기존 연구 대비 10분의 1 미만의 학습 데이터만을 요구합니다. 강화 학습 사후 훈련은 성능을 더욱 향상시키며, o3를 플래너로 사용하는 OSWorld 벤치마크에서 에이전트 설정으로 평가했을 때, GroundNext는 훨씬 더 많은 데이터로 훈련된 모델들과 비교하여 유사하거나 우수한 결과를 달성했습니다. 이러한 결과는 범용 컴퓨터 사용 에이전트의 발전에 고품질의 전문가 주도 데이터셋이 중요한 역할을 함을 입증합니다.
English
Building reliable computer-use agents requires grounding: accurately connecting natural language instructions to the correct on-screen elements. While large datasets exist for web and mobile interactions, high-quality resources for desktop environments are limited. To address this gap, we introduce GroundCUA, a large-scale desktop grounding dataset built from expert human demonstrations. It covers 87 applications across 12 categories and includes 56K screenshots, with every on-screen element carefully annotated for a total of over 3.56M human-verified annotations. From these demonstrations, we generate diverse instructions that capture a wide range of real-world tasks, providing high-quality data for model training. Using GroundCUA, we develop the GroundNext family of models that map instructions to their target UI elements. At both 3B and 7B scales, GroundNext achieves state-of-the-art results across five benchmarks using supervised fine-tuning, while requiring less than one-tenth the training data of prior work. Reinforcement learning post-training further improves performance, and when evaluated in an agentic setting on the OSWorld benchmark using o3 as planner, GroundNext attains comparable or superior results to models trained with substantially more data,. These results demonstrate the critical role of high-quality, expert-driven datasets in advancing general-purpose computer-use agents.
PDF1034December 2, 2025