ChatPaper.aiChatPaper

DigiData: Addestramento e Valutazione di Agenti di Controllo Mobile Generici

DigiData: Training and Evaluating General-Purpose Mobile Control Agents

November 10, 2025
Autori: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe
cs.AI

Abstract

Gli agenti di IA in grado di controllare le interfacce utente hanno il potenziale di trasformare l'interazione umana con i dispositivi digitali. Per accelerare questa trasformazione, due elementi fondamentali sono essenziali: dataset di alta qualità che consentano agli agenti di raggiungere obiettivi complessi e rilevanti per l'uomo, e metodi di valutazione robusti che permettano a ricercatori e professionisti di migliorare rapidamente le prestazioni degli agenti. In questo articolo presentiamo DigiData, un dataset multimodale su larga scala, di alta qualità e diversificato, progettato per l'addestramento di agenti di controllo mobile. A differenza dei dataset esistenti, che derivano gli obiettivi da interazioni non strutturate, DigiData è meticolosamente costruito attraverso un'esplorazione completa delle funzionalità delle app, risultando in una maggiore diversità e una superiore complessità degli obiettivi. Inoltre, presentiamo DigiData-Bench, un benchmark per valutare gli agenti di controllo mobile su compiti complessi del mondo reale. Dimostriamo che la metrica comunemente utilizzata dell'accuratezza per step è inadeguata per valutare in modo affidabile gli agenti di controllo mobile e, per affrontare questa problematica, proponiamo protocolli di valutazione dinamica e valutazioni basate su IA come alternative rigorose per la valutazione degli agenti. I nostri contributi mirano a far avanzare significativamente lo sviluppo degli agenti di controllo mobile, aprendo la strada a interazioni uomo-dispositivo più intuitive ed efficaci.
English
AI agents capable of controlling user interfaces have the potential to transform human interaction with digital devices. To accelerate this transformation, two fundamental building blocks are essential: high-quality datasets that enable agents to achieve complex and human-relevant goals, and robust evaluation methods that allow researchers and practitioners to rapidly enhance agent performance. In this paper, we introduce DigiData, a large-scale, high-quality, diverse, multi-modal dataset designed for training mobile control agents. Unlike existing datasets, which derive goals from unstructured interactions, DigiData is meticulously constructed through comprehensive exploration of app features, resulting in greater diversity and higher goal complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating mobile control agents on real-world complex tasks. We demonstrate that the commonly used step-accuracy metric falls short in reliably assessing mobile control agents and, to address this, we propose dynamic evaluation protocols and AI-powered evaluations as rigorous alternatives for agent assessment. Our contributions aim to significantly advance the development of mobile control agents, paving the way for more intuitive and effective human-device interactions.
PDF53December 2, 2025