DigiData: Opleiden en Evalueren van Algemeen Inzetbare Mobiele Besturingsagenten
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
November 10, 2025
Auteurs: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe
cs.AI
Samenvatting
AI-agenten die gebruikersinterfaces kunnen besturen, hebben het potentieel om de menselijke interactie met digitale apparaten te transformeren. Om deze transformatie te versnellen zijn twee fundamentele bouwstenen essentieel: hoogwaardige datasets die agenten in staat stellen complexe en voor mensen relevante doelen te bereiken, en robuuste evaluatiemethoden die onderzoekers en professionals in staat stellen de prestaties van agenten snel te verbeteren. In dit artikel introduceren we DigiData, een grootschalige, hoogwaardige, diverse en multimodale dataset die is ontworpen voor het trainen van mobiele besturingsagenten. In tegenstelling tot bestaande datasets, waarvan de doelen zijn afgeleid van ongestructureerde interacties, is DigiData nauwkeurig opgebouwd door middel van uitgebreide verkenning van app-functies, wat resulteert in een grotere diversiteit en hogere doelcomplexiteit. Daarnaast presenteren we DigiData-Bench, een benchmark voor het evalueren van mobiele besturingsagenten op complexe taken uit de praktijk. We tonen aan dat de veelgebruikte stapnauwkeurigheidsmetriek tekortschiet in het betrouwbaar beoordelen van mobiele besturingsagenten en stellen, om dit aan te pakken, dynamische evaluatieprotocollen en AI-gestuurde evaluaties voor als rigoureuze alternatieven voor agentbeoordeling. Onze bijdragen zijn erop gericht de ontwikkeling van mobiele besturingsagenten aanzienlijk vooruit te helpen, waardoor de weg wordt geëffend voor meer intuïtieve en effectieve mens-apparaatinteracties.
English
AI agents capable of controlling user interfaces have the potential to
transform human interaction with digital devices. To accelerate this
transformation, two fundamental building blocks are essential: high-quality
datasets that enable agents to achieve complex and human-relevant goals, and
robust evaluation methods that allow researchers and practitioners to rapidly
enhance agent performance. In this paper, we introduce DigiData, a large-scale,
high-quality, diverse, multi-modal dataset designed for training mobile control
agents. Unlike existing datasets, which derive goals from unstructured
interactions, DigiData is meticulously constructed through comprehensive
exploration of app features, resulting in greater diversity and higher goal
complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating
mobile control agents on real-world complex tasks. We demonstrate that the
commonly used step-accuracy metric falls short in reliably assessing mobile
control agents and, to address this, we propose dynamic evaluation protocols
and AI-powered evaluations as rigorous alternatives for agent assessment. Our
contributions aim to significantly advance the development of mobile control
agents, paving the way for more intuitive and effective human-device
interactions.