DigiData : Entraînement et évaluation d'agents de contrôle mobiles polyvalents
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
November 10, 2025
papers.authors: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe
cs.AI
papers.abstract
Les agents d'IA capables de contrôler les interfaces utilisateur ont le potentiel de transformer l'interaction humaine avec les appareils numériques. Pour accélérer cette transformation, deux éléments fondamentaux sont essentiels : des jeux de données de haute qualité permettant aux agents d'atteindre des objectifs complexes et pertinents pour les humains, et des méthodes d'évaluation robustes permettant aux chercheurs et aux praticiens d'améliorer rapidement les performances des agents. Dans cet article, nous présentons DigiData, un jeu de données multimodal, à grande échelle, de haute qualité et diversifié, conçu pour l'entraînement d'agents de contrôle mobiles. Contrairement aux jeux de données existants, qui dérivent leurs objectifs d'interactions non structurées, DigiData est méticuleusement construit grâce à une exploration exhaustive des fonctionnalités des applications, ce qui se traduit par une plus grande diversité et une complexité accrue des objectifs. De plus, nous présentons DigiData-Bench, un benchmark pour l'évaluation des agents de contrôle mobiles sur des tâches complexes du monde réel. Nous démontrons que la métrique de précision par étape couramment utilisée est insuffisante pour évaluer de manière fiable les agents de contrôle mobiles et, pour remédier à cela, nous proposons des protocoles d'évaluation dynamique et des évaluations assistées par l'IA comme alternatives rigoureuses pour l'évaluation des agents. Nos contributions visent à faire progresser significativement le développement des agents de contrôle mobiles, ouvrant la voie à des interactions homme-appareil plus intuitives et efficaces.
English
AI agents capable of controlling user interfaces have the potential to
transform human interaction with digital devices. To accelerate this
transformation, two fundamental building blocks are essential: high-quality
datasets that enable agents to achieve complex and human-relevant goals, and
robust evaluation methods that allow researchers and practitioners to rapidly
enhance agent performance. In this paper, we introduce DigiData, a large-scale,
high-quality, diverse, multi-modal dataset designed for training mobile control
agents. Unlike existing datasets, which derive goals from unstructured
interactions, DigiData is meticulously constructed through comprehensive
exploration of app features, resulting in greater diversity and higher goal
complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating
mobile control agents on real-world complex tasks. We demonstrate that the
commonly used step-accuracy metric falls short in reliably assessing mobile
control agents and, to address this, we propose dynamic evaluation protocols
and AI-powered evaluations as rigorous alternatives for agent assessment. Our
contributions aim to significantly advance the development of mobile control
agents, paving the way for more intuitive and effective human-device
interactions.