Agentes de Interface Gráfica Móvel sob Ameaças do Mundo Real: Já Chegamos Lá?

Resumo

Os últimos anos testemunharam um rápido desenvolvimento de agentes de interface gráfica (GUI) móveis impulsionados por grandes modelos de linguagem (LLMs), capazes de executar autonomamente diversas tarefas de controle de dispositivos com base em instruções em linguagem natural. A precisão crescente desses agentes em benchmarks padrão elevou as expectativas para uma implantação em larga escala no mundo real, e já existem vários agentes comerciais lançados e utilizados por early adopters. No entanto, estaremos realmente preparados para agentes de GUI integrados nos nossos dispositivos diários como blocos de construção do sistema? Argumentamos que falta uma validação pré-implantação importante para examinar se os agentes podem manter o seu desempenho sob ameaças do mundo real. Especificamente, ao contrário dos benchmarks comuns existentes, que se baseiam em conteúdos de aplicativos estáticos simples (têm de o fazer para garantir a consistência do ambiente entre diferentes testes), os aplicativos do mundo real estão repletos de conteúdos de terceiros não confiáveis, como e-mails de publicidade, publicações e media gerados por utilizadores, etc. ... Para tal, introduzimos uma estrutura de instrumentação de conteúdo de aplicativos escalável para permitir modificações de conteúdo flexíveis e direcionadas em aplicações existentes. Aproveitando esta estrutura, criamos um conjunto de testes que compreende tanto um ambiente de execução dinâmico de tarefas como um conjunto de dados estático de estados de GUI desafiadores. O ambiente dinâmico abrange 122 tarefas reproduzíveis, e o conjunto de dados estático consiste em mais de 3.000 cenários construídos a partir de aplicativos comerciais. Realizamos experiências em agentes de GUI tanto de código aberto como comerciais. As nossas descobertas revelam que todos os agentes examinados podem ser significativamente degradados devido a conteúdos de terceiros, com uma taxa média de indução em erro de 42,0% e 36,1% em ambientes dinâmicos e estáticos, respetivamente. A estrutura e o benchmark foram disponibilizados em https://agenthazard.github.io.

English

Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.

Agentes de Interface Gráfica Móvel sob Ameaças do Mundo Real: Já Chegamos Lá?

Mobile GUI Agents under Real-world Threats: Are We There Yet?

Resumo

Support