ChatPaper.aiChatPaper

DigiData: 汎用モバイル制御エージェントのトレーニングと評価

DigiData: Training and Evaluating General-Purpose Mobile Control Agents

November 10, 2025
著者: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe
cs.AI

要旨

ユーザーインターフェースを制御可能なAIエージェントは、人間とデジタルデバイスとの相互作用を変革する可能性を秘めている。この変革を加速させるためには、二つの基本的な構成要素が不可欠である。すなわち、エージェントが複雑で人間にとって意味のある目標を達成することを可能にする高品質なデータセットと、研究者や実務者がエージェントの性能を迅速に向上させられるようにする堅牢な評価手法である。本論文では、モバイル制御エージェントのトレーニング用に設計された、大規模、高品質、多様、マルチモーダルなデータセットであるDigiDataを提案する。既存のデータセットが非構造化されたインタラクションから目標を導出するのに対し、DigiDataはアプリ機能の網羅的な探索を通じて綿密に構築されており、より高い多様性と目標の複雑性を実現している。さらに、現実世界の複雑なタスクにおいてモバイル制御エージェントを評価するベンチマークであるDigiData-Benchを提示する。一般的に用いられるステップ精度指標はモバイル制御エージェントの信頼性のある評価には不十分であることを示し、この問題に対処するため、動的評価プロトコルとAIを活用した評価をエージェント評価の厳密な代替手段として提案する。我々の貢献は、モバイル制御エージェントの開発を大幅に前進させ、より直感的で効果的な人間とデバイスとの相互作用への道を開くことを目的としている。
English
AI agents capable of controlling user interfaces have the potential to transform human interaction with digital devices. To accelerate this transformation, two fundamental building blocks are essential: high-quality datasets that enable agents to achieve complex and human-relevant goals, and robust evaluation methods that allow researchers and practitioners to rapidly enhance agent performance. In this paper, we introduce DigiData, a large-scale, high-quality, diverse, multi-modal dataset designed for training mobile control agents. Unlike existing datasets, which derive goals from unstructured interactions, DigiData is meticulously constructed through comprehensive exploration of app features, resulting in greater diversity and higher goal complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating mobile control agents on real-world complex tasks. We demonstrate that the commonly used step-accuracy metric falls short in reliably assessing mobile control agents and, to address this, we propose dynamic evaluation protocols and AI-powered evaluations as rigorous alternatives for agent assessment. Our contributions aim to significantly advance the development of mobile control agents, paving the way for more intuitive and effective human-device interactions.
PDF53December 2, 2025