ChatPaper.aiChatPaper

Agents d'interface graphique mobile face aux menaces du monde réel : en sommes-nous déjà là ?

Mobile GUI Agents under Real-world Threats: Are We There Yet?

April 14, 2026
Auteurs: Guohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
cs.AI

Résumé

Ces dernières années ont connu un développement rapide des agents d'interface graphique mobile (GUI) propulsés par les grands modèles de langage (LLM), capables d'exécuter de manière autonome diverses tâches de contrôle d'appareils sur la base d'instructions en langage naturel. La précision croissante de ces agents sur les bancs d'essai standards a suscité des attentes pour un déploiement à grande échelle dans le monde réel, et plusieurs agents commerciaux sont déjà disponibles et utilisés par des early adopters. Cependant, sommes-nous vraiment prêts à intégrer les agents GUI en tant que composants système dans nos appareils quotidiens ? Nous soutenons qu'une validation pré-déploiement cruciale fait défaut pour examiner si les agents peuvent maintenir leurs performances face à des menaces du monde réel. Concrètement, contrairement aux bancs d'essai existants qui reposent sur des contenus d'applications statiques et simples (une nécessité pour garantir la cohérence de l'environnement entre différents tests), les applications réelles sont remplies de contenus provenant de tiers non fiables, tels que des e-mails publicitaires, des publications et des médias générés par les utilisateurs, etc. ... Pour répondre à ce besoin, nous présentons un cadre d'instrumentation de contenu d'applications évolutif permettant des modifications de contenu flexibles et ciblées dans les applications existantes. En nous appuyant sur ce cadre, nous créons une suite de tests comprenant à la fois un environnement d'exécution dynamique de tâches et un jeu de données statique d'états GUI complexes. L'environnement dynamique comprend 122 tâches reproductibles, et le jeu de données statique se compose de plus de 3 000 scénarios construits à partir d'applications commerciales. Nous menons des expériences sur des agents GUI open-source et commerciaux. Nos résultats révèlent que tous les agents examinés peuvent voir leurs performances significativement dégradées par des contenus tiers, avec un taux d'induction en erreur moyen de 42,0 % et 36,1 % respectivement dans les environnements dynamique et statique. Le cadre et le benchmark ont été publiés à l'adresse https://agenthazard.github.io.
English
Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.
PDF11April 17, 2026