디지데이터: 범용 모바일 제어 에이전트의 훈련 및 평가
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
November 10, 2025
저자: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe
cs.AI
초록
사용자 인터페이스를 제어할 수 있는 AI 에이전트는 인간과 디지털 기기 간의 상호작용을 혁신할 잠재력을 지니고 있습니다. 이러한 변화를 가속화하기 위해서는 두 가지 기본 구성 요소가 필수적입니다. 첫째, 에이전트가 복잡하고 인간 중심의 목표를 달성할 수 있도록 하는 고품질 데이터셋이며, 둘째, 연구자와 실무자가 에이전트 성능을 신속하게 향상시킬 수 있도록 하는 강력한 평가 방법론입니다. 본 논문에서는 모바일 제어 에이전트 학습을 위해 설계된 대규모, 고품질, 다양성, 다중 모달 데이터셋인 DigiData를 소개합니다. 비정형 상호작용에서 목표를 도출하는 기존 데이터셋과 달리 DigiData는 앱 기능을 포괄적으로 탐색하여 세심하게 구축되었으며, 이로 인해 더 높은 다양성과 목표 복잡성을 지닙니다. 또한 실제 세계의 복잡한 작업에 대해 모바일 제어 에이전트를 평가하는 벤치마크인 DigiData-Bench를 제시합니다. 우리는 일반적으로 사용되는 단계 정확도(step-accuracy) 메트릭이 모바일 제어 에이전트를 신뢰성 있게 평가하는 데 부족함을 보여주며, 이를 해결하기 위해 에이전트 평가를 위한 엄격한 대안으로 동적 평가 프로토콜과 AI 기반 평가를 제안합니다. 우리의 기여는 모바일 제어 에이전트 개발을 크게 진전시켜 보다 직관적이고 효과적인 인간-기기 상호작용의 길을 열어줄 것입니다.
English
AI agents capable of controlling user interfaces have the potential to
transform human interaction with digital devices. To accelerate this
transformation, two fundamental building blocks are essential: high-quality
datasets that enable agents to achieve complex and human-relevant goals, and
robust evaluation methods that allow researchers and practitioners to rapidly
enhance agent performance. In this paper, we introduce DigiData, a large-scale,
high-quality, diverse, multi-modal dataset designed for training mobile control
agents. Unlike existing datasets, which derive goals from unstructured
interactions, DigiData is meticulously constructed through comprehensive
exploration of app features, resulting in greater diversity and higher goal
complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating
mobile control agents on real-world complex tasks. We demonstrate that the
commonly used step-accuracy metric falls short in reliably assessing mobile
control agents and, to address this, we propose dynamic evaluation protocols
and AI-powered evaluations as rigorous alternatives for agent assessment. Our
contributions aim to significantly advance the development of mobile control
agents, paving the way for more intuitive and effective human-device
interactions.