DigiData: Training und Evaluierung universeller mobiler Steuerungsagenten
DigiData: Training and Evaluating General-Purpose Mobile Control Agents
November 10, 2025
papers.authors: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe
cs.AI
papers.abstract
KI-Agenten, die in der Lage sind, Benutzeroberflächen zu steuern, haben das Potenzial, die menschliche Interaktion mit digitalen Geräten zu revolutionieren. Um diesen Wandel zu beschleunigen, sind zwei grundlegende Bausteine unerlässlich: hochwertige Datensätze, die es Agenten ermöglichen, komplexe und für Menschen relevante Ziele zu erreichen, sowie robuste Evaluierungsmethoden, die Forschern und Praktikern eine rasche Verbesserung der Agentenleistung erlauben. In diesem Artikel stellen wir DigiData vor, einen groß angelegten, hochwertigen, diversen und multimodalen Datensatz, der für das Training mobiler Steuerungsagenten konzipiert ist. Im Gegensatz zu bestehenden Datensätzen, deren Ziele aus unstrukturierten Interaktionen abgeleitet werden, wird DigiData durch eine umfassende Erkundung von App-Funktionen sorgfältig konstruiert, was zu einer größeren Vielfalt und höherer Zielkomplexität führt. Zusätzlich präsentieren wir DigiData-Bench, einen Benchmark zur Bewertung mobiler Steuerungsagenten anhand realer komplexer Aufgaben. Wir zeigen, dass die häufig verwendete Schrittgenauigkeitsmetrik unzureichend ist, um mobile Steuerungsagenten zuverlässig zu bewerten, und schlagen als rigorose Alternativen dynamische Evaluierungsprotokolle und KI-gestützte Bewertungen vor. Unsere Beiträge zielen darauf ab, die Entwicklung mobiler Steuerungsagenten erheblich voranzutreiben und den Weg für intuitivere und effektivere Mensch-Gerät-Interaktionen zu ebnen.
English
AI agents capable of controlling user interfaces have the potential to
transform human interaction with digital devices. To accelerate this
transformation, two fundamental building blocks are essential: high-quality
datasets that enable agents to achieve complex and human-relevant goals, and
robust evaluation methods that allow researchers and practitioners to rapidly
enhance agent performance. In this paper, we introduce DigiData, a large-scale,
high-quality, diverse, multi-modal dataset designed for training mobile control
agents. Unlike existing datasets, which derive goals from unstructured
interactions, DigiData is meticulously constructed through comprehensive
exploration of app features, resulting in greater diversity and higher goal
complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating
mobile control agents on real-world complex tasks. We demonstrate that the
commonly used step-accuracy metric falls short in reliably assessing mobile
control agents and, to address this, we propose dynamic evaluation protocols
and AI-powered evaluations as rigorous alternatives for agent assessment. Our
contributions aim to significantly advance the development of mobile control
agents, paving the way for more intuitive and effective human-device
interactions.