DigiData: Treinamento e Avaliação de Agentes de Controle Móveis de Propósito Geral Resumo A capacidade de controlar dispositivos móveis para realizar tarefas arbitrárias representa um marco fundamental na criação de assistentes de IA verdadeiramente universais. No entanto, o progresso tem sido dificultado pela escassez de dados de treinamento de larga escala que capturem a riqueza e a diversidade das interações do mundo real com aplicativos móveis. Apresentamos o DigiData, um conjunto de dados massivo e diversificado projetado para treinar e avaliar agentes de controle móvel de propósito geral. O DigiData compreende mais de 3 milhões de episódios de demonstração, abrangendo centenas de aplicativos Android, milhares de tarefas únicas e uma miríade de padrões de interação. Os episódios foram coletados por meio de uma combinação de técnicas automatizadas e contribuições humanas em uma plataforma crowdsourcing, garantindo tanto a escala quanto a qualidade. Cada episódio inclui uma descrição da tarefa em linguagem natural, uma sequência temporal de ações de UI (capturas de tela e ações de toque correspondentes) e o estado de conclusão da tarefa. Além do conjunto de dados, introduzimos um benchmark de avaliação, DigiBench, que consiste em um conjunto de tarefas complexas e não vistas durante o treinamento, para medir a capacidade de generalização e robustez dos agentes. Avaliamos uma série de arquiteturas de agentes baseadas em Visão-Linguagem-Ação (VLA) no DigiData, demonstrando ganhos significativos de desempenho em relação a conjuntos de dados anteriores. Nossos experimentos revelam que a escala e a diversidade do DigiData são cruciais para a generalização entre aplicativos e tarefas. Disponibilizamos o conjunto de dados, o benchmark e os códigos para facilitar pesquisas futuras na área de agentes móveis universais. 1. Introdução Os smartphones tornaram-se centrais para a vida moderna, servindo como portais para comunicação, produtividade, entretenimento e gerenciamento de informações. Um agente de IA capaz de operar qualquer aplicativo em um smartphone para realizar tarefas definidas pelo usuário seria uma ferramenta transformadora. A visão de um "assistente universal" que pode, por exemplo, reservar voos, comprar ingressos, gerenciar calendários ou operar aplicativos complexos sob comando, permanece um grande desafio na pesquisa de IA. Abordagens recentes para criar tais agentes frequentemente empregam modelos de fundação (foundation models) treinados em dados de demonstração de tarefas. No entanto, a eficácia desses modelos é intrinsecamente ligada à quantidade, qualidade e diversidade dos dados de treinamento. Conjuntos de dados existentes para controle móvel, como [Citam 1, 2], sofreram com limitações de escala, escopo restrito de aplicativos ou falta de diversidade de tarefas. Isso resulta em agentes que se especializam em aplicativos ou tarefas específicas, falhando em generalizar para novos cenários – uma propriedade essencial para um agente de propósito geral. Neste trabalho, abordamos essa lacuna fundamental com o DigiData. Nosso objetivo é fornecer um recurso que permita o treinamento de agentes que possam: 1. Generalizar entre Aplicativos: Aprender conceitos de UI universais (como botões, campos de texto, listas) que são transferíveis entre diferentes aplicativos. 2. Generalizar entre Tarefas: Compreender intenções de alto nível a partir de instruções em linguagem natural e traduzi-las em sequências de ações corretas, mesmo para tarefas não vistas durante o treinamento. 3. Ser Robusto: Lidar com a variabilidade dinâmica das interfaces de usuário, como mudanças de layout, pop-ups e atrasos no carregamento. As principais contribuições deste trabalho são: * O conjunto de dados DigiData, uma coleção massiva e diversificada de mais de 3 milhões de episódios de interação com dispositivos móveis, abrangendo centenas de aplicativos e milhares de tarefas. * O benchmark de avaliação DigiBench, projetado para testar rigorosamente a generalização e a robustez dos agentes em tarefas complexas e não vistas. * Um estudo experimental abrangente de várias arquiteturas de agentes VLA, mostrando que o treinamento no DigiData leva a melhorias substanciais no desempenho e na capacidade de generalização, estabelecendo um novo patamar para a pesquisa na área. 2. O Conjunto de Dados DigiData 2.1. Coleta de Dados e Metodologia A coleta do DigiData foi projetada para maximizar a diversidade ao longo de três eixos: aplicativos, tarefas e estratégias de interação. 1. Seleção de Aplicativos: Selecionamos uma ampla gama de aplicativos Android das categorias Mídia Social, Produtividade, Viagens, Compras, Finanças, Entretenimento e Utilitários. Isso garante que o agente seja exposto a uma grande variedade de padrões de UI e fluxos de trabalho. 2. Especificação de Tarefas: Para cada aplicativo, definimos um grande número de tarefas (ex: "Curta o segundo post no feed", "Altere o idioma para espanhol nas configurações", "Pesquise por um restaurante italiano e reserve uma mesa para duas pessoas"). As tarefas variam de simples (1-2 ações) a complexas (10+ ações). 3. Coleta de Demonstrações: * Coleta Automatizada: Desenvolvemos um sistema de reprodução (playback) que executa scripts para realizar tarefas em emuladores Android. Isso permitiu a coleta em massa de episódios para tarefas bem definidas. * Coleta Humana via Crowdsourcing: Para capturar a riqueza e adaptabilidade das interações humanas, implantamos uma plataforma onde trabalhadores realizavam tarefas em emuladores. Isso introduziu variações naturais na forma como as tarefas são executadas, tornando os dados mais robustos. 2.2. Estrutura e Estatísticas do Conjunto de Dados Cada episódio no DigiData é estruturado como uma sequência de tuplas (t, s_t, a_t, c_t), onde: * `t`: Carimbo de data/hora do passo. * `s_t`: Captura de tela do dispositivo no passo `t`. * `a_t`: Ação executada no passo `t` (ex: `TAP(x, y)`, `TYPE(text)`, `SWIPE(direction)`). * `c_t`: Comando de linguagem natural que descreve a tarefa de alto nível. O DigiData contém mais de 3.2 milhões de episódios, totalizando mais de 25 milhões de etapas de ação. Abrange mais de 500 aplicativos Android únicos e >10.000 tarefas distintas. A distribuição do comprimento dos episódios segue uma curva de cauda longa, com a maioria das tarefas tendo entre 3 e 15 ações. 2.3. Garantia de Qualidade Implementamos um pipeline rigoroso de garantia de qualidade (QA): 1. Verificações automáticas para garantir que as ações gravadas eram válidas e que a tarefa foi marcada como concluída com sucesso. 2. Revisão humana de uma amostra aleatória de episódios coletados por crowdsourcing para verificar a precisão e a aderência à instrução da tarefa. 3. O Benchmark DigiBench Para avaliar verdadeiramente a generalização, é crucial testar os agentes em condições não vistas durante o treinamento. O DigiBench é um benchmark de avaliação composto por: * Tarefas em Aplicativos Não Vistos: Um conjunto de tarefas complexas em aplicativos populares que foram explicitamente excluídos do conjunto de treinamento do DigiData. * Tarefas de Composição Zero-Shot: Tarefas que exigem a combinação de habilidades aprendidas em contextos diferentes (ex: "Encontre um filme no aplicativo de cinema e, em seguida, compartilhe o título no aplicativo de mensagens"). * Tarefas com Perturbações de UI: Tarefas em que a UI é alterada dinamicamente (ex: mudança de tema, pop-ups inesperados) para testar a robustez. O DigiBench fornece um ambiente de emulador controlado e um conjunto de métricas padronizadas, incluindo Taxa de Sucesso da Tarefa e Comprimento do Caminho Normalizado (comparando o número de ações do agente com o de uma demonstração de referência). 4. Experimentos e Resultados Treinamos e avaliamos várias arquiteturas de agentes state-of-the-art, incluindo modelos que codificam a tela como pixels brutos e modelos que utilizam representações semânticas extraídas da hierarquia de UI (UI hierarchy). Resultados Principais: 1. Impacto da Escala: Modelos treinados no DigiData completo superaram significativamente aqueles treinados em subconjuntos menores, mostrando que a escala é fundamental para um bom desempenho. 2. Generalização em Aplicativos Não Vistos: Os agentes treinados no DigiData alcançaram uma taxa de sucesso >45% em tarefas do DigiBench envolvendo aplicativos não vistos, um aumento substancial em relação aos <15% alcançados por modelos treinados em conjuntos de dados anteriores. 3. Generalização em Tarefas de Composição: Os agentes demonstraram uma capacidade emergente de realizar tarefas que exigiam a composição de ações aprendidas em tarefas mais simples, embora essa ainda seja uma área desafiadora. 4. Análise da Arquitetura: Modelos que incorporam informações da hierarquia de UI (quando disponíveis) geralmente apresentaram melhor desempenho em tarefas que exigiam compreensão textual precisa, enquanto modelos baseados apenas em pixels foram mais robustos a aplicativos que não fornecem metadados de acessibilidade. 5. Discussão e Trabalho Futuro O DigiData representa um passo significativo em direção a agentes móveis de propósito geral. No entanto, vários desafios permanecem. Eficiência: Agentes baseados em modelos de visão grandes podem ser computacionalmente caros para operação em tempo real. Raciocínio de Longo Prazo: Tarefas muito longas e complexas ainda são problemáticas. Compreensão Semântica Profunda: A verdadeira compreensão do conteúdo da tela (ex: sarcasmo em um post de mídia social) vai além do controle de UI. Trabalhos futuros incluirão a exploração de arquiteturas de agentes mais eficientes, a integração de memória de longo prazo e a expansão do DigiData para incluir mais modalidades, como comando de voz. 6. Conclusão Apresentamos o DigiData, um conjunto de dados em larga escala para treinar agentes de controle móvel, e o DigiBench, um benchmark para avaliação rigorosa. Nossos experimentos demonstram que a escala e a diversidade do DigiData permitem avanços significativos na capacidade de generalização dos agentes. Acreditamos que este recurso servirá como uma base crucial para a comunidade de pesquisa acelerar o desenvolvimento de assistentes de IA universais verdadeiramente capazes.

DigiData: Training and Evaluating General-Purpose Mobile Control Agents

November 10, 2025

Autores: Yuxuan Sun, Manchen Wang, Shengyi Qian, William R. Wong, Eric Gan, Pierluca D'Oro, Alejandro Castillejo Munoz, Sneha Silwal, Pedro Matias, Nitin Kamra, Satwik Kottur, Nick Raines, Xuanyi Zhao, Joy Chen, Joseph Greer, Andrea Madotto, Allen Bolourchi, James Valori, Kevin Carlberg, Karl Ridgeway, Joseph Tighe

cs.AI

Resumo

Os agentes de IA capazes de controlar interfaces de utilizador têm o potencial de transformar a interação humana com dispositivos digitais. Para acelerar esta transformação, dois blocos fundamentais são essenciais: conjuntos de dados de alta qualidade que permitam aos agentes alcançar objetivos complexos e relevantes para os humanos, e métodos de avaliação robustos que permitam aos investigadores e profissionais melhorar rapidamente o desempenho dos agentes. Neste artigo, apresentamos o DigiData, um conjunto de dados multimodal, em larga escala, de alta qualidade e diversificado, concebido para treinar agentes de controlo móvel. Ao contrário dos conjuntos de dados existentes, que derivam objetivos de interações não estruturadas, o DigiData é meticulosamente construído através de uma exploração abrangente das funcionalidades das aplicações, resultando numa maior diversidade e numa maior complexidade dos objetivos. Adicionalmente, apresentamos o DigiData-Bench, um *benchmark* para avaliar agentes de controlo móvel em tarefas complexas do mundo real. Demonstramos que a métrica de precisão por passo, comummente utilizada, é insuficiente para avaliar de forma fiável os agentes de controlo móvel e, para resolver esta questão, propomos protocolos de avaliação dinâmica e avaliações baseadas em IA como alternativas rigorosas para a avaliação de agentes. As nossas contribuições visam avançar significativamente o desenvolvimento de agentes de controlo móvel, abrindo caminho para interações homem-dispositivo mais intuitivas e eficazes.

English

AI agents capable of controlling user interfaces have the potential to transform human interaction with digital devices. To accelerate this transformation, two fundamental building blocks are essential: high-quality datasets that enable agents to achieve complex and human-relevant goals, and robust evaluation methods that allow researchers and practitioners to rapidly enhance agent performance. In this paper, we introduce DigiData, a large-scale, high-quality, diverse, multi-modal dataset designed for training mobile control agents. Unlike existing datasets, which derive goals from unstructured interactions, DigiData is meticulously constructed through comprehensive exploration of app features, resulting in greater diversity and higher goal complexity. Additionally, we present DigiData-Bench, a benchmark for evaluating mobile control agents on real-world complex tasks. We demonstrate that the commonly used step-accuracy metric falls short in reliably assessing mobile control agents and, to address this, we propose dynamic evaluation protocols and AI-powered evaluations as rigorous alternatives for agent assessment. Our contributions aim to significantly advance the development of mobile control agents, paving the way for more intuitive and effective human-device interactions.