Agentes GUI Móviles bajo Amenazas del Mundo Real: ¿Hemos Llegado Ya?
Mobile GUI Agents under Real-world Threats: Are We There Yet?
April 14, 2026
Autores: Guohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
cs.AI
Resumen
En los últimos años, hemos asistido a un rápido desarrollo de agentes de interfaz gráfica de usuario (GUI) para dispositivos móviles impulsados por grandes modelos de lenguaje (LLM), que pueden ejecutar de forma autónoma diversas tareas de control de dispositivos basándose en instrucciones en lenguaje natural. La creciente precisión de estos agentes en los benchmarks estándar ha generado expectativas para un despliegue a gran escala en el mundo real, y ya existen varios agentes comerciales publicados y utilizados por early adopters. Sin embargo, ¿estamos realmente preparados para que los agentes GUI se integren en nuestros dispositivos cotidianos como bloques de construcción del sistema? Sostenemos que falta una validación previa al despliegue para examinar si los agentes pueden mantener su rendimiento bajo amenazas del mundo real. Específicamente, a diferencia de los benchmarks comunes existentes que se basan en contenidos de aplicaciones estáticos y simples (deben hacerlo para garantizar la consistencia del entorno entre diferentes pruebas), las aplicaciones del mundo real están llenas de contenidos procedentes de terceros no confiables, como correos electrónicos publicitarios, publicaciones y medios generados por usuarios, etc. ... Con este fin, presentamos un marco de instrumentación de contenidos de aplicaciones escalable para permitir modificaciones de contenido flexibles y dirigidas dentro de aplicaciones existentes. Aprovechando este marco, creamos un conjunto de pruebas que comprende tanto un entorno dinámico de ejecución de tareas como un conjunto de datos estático de estados GUI desafiantes. El entorno dinámico abarca 122 tareas reproducibles, y el conjunto de datos estático consta de más de 3.000 escenarios construidos a partir de aplicaciones comerciales. Realizamos experimentos tanto en agentes GUI de código abierto como comerciales. Nuestros hallazgos revelan que el rendimiento de todos los agentes examinados puede degradarse significativamente debido a los contenidos de terceros, con una tasa promedio de inducción a error del 42.0% y del 36.1% en los entornos dinámico y estático, respectivamente. El marco y el benchmark han sido publicados en https://agenthazard.github.io.
English
Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.