ChatPaper.aiChatPaper

Agenti GUI Mobili sotto Minacce del Mondo Reale: Ci Siamo Quasi?

Mobile GUI Agents under Real-world Threats: Are We There Yet?

April 14, 2026
Autori: Guohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
cs.AI

Abstract

Negli ultimi anni si è assistito a un rapido sviluppo di agenti GUI per dispositivi mobili basati su grandi modelli linguistici (LLM), in grado di eseguire autonomamente diverse attività di controllo del dispositivo basandosi su istruzioni in linguaggio naturale. La crescente accuratezza di questi agenti su benchmark standard ha alimentato le aspettative per una diffusione su larga scala nel mondo reale, e sono già stati rilasciati diversi agenti commerciali utilizzati da utenti pionieri. Tuttavia, siamo veramente pronti per integrare gli agenti GUI nei nostri dispositivi quotidiani come componenti di sistema? Sosteniamo che manchi un'importante validazione pre-distribuzione per verificare se gli agenti possano mantenere le loro prestazioni sotto minacce del mondo reale. Nello specifico, a differenza dei comuni benchmark esistenti basati su contenuti di app statici e semplici (devono esserlo per garantire la coerenza dell'ambiente tra diversi test), le app del mondo reale sono piene di contenuti provenienti da terze parti non affidabili, come email pubblicitarie, post e media generati dagli utenti, ecc. ... A tal fine, introduciamo un framework scalabile per l'instrumentazione dei contenuti delle app, che consenta modifiche flessibili e mirate dei contenuti all'interno delle applicazioni esistenti. Sfruttando questo framework, creiamo una suite di test che comprende sia un ambiente dinamico per l'esecuzione di task sia un dataset statico di stati GUI complessi. L'ambiente dinamico include 122 task riproducibili, mentre il dataset statico consiste in oltre 3.000 scenari costruiti a partire da app commerciali. Abbiamo condotto esperimenti su agenti GUI sia open-source che commerciali. I nostri risultati rivelano che tutti gli agenti esaminati possono essere significativamente degradati a causa di contenuti di terze parti, con un tasso medio di fuorviamento del 42,0% e del 36,1% rispettivamente negli ambienti dinamici e statici. Il framework e il benchmark sono stati rilasciati all'indirizzo https://agenthazard.github.io.
English
Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.
PDF32April 26, 2026