Mobile-GUI-Agenten unter realen Bedrohungen: Sind wir schon so weit?
Mobile GUI Agents under Real-world Threats: Are We There Yet?
April 14, 2026
Autoren: Guohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
cs.AI
Zusammenfassung
In den letzten Jahren war eine rasante Entwicklung von mobilen GUI-Agenten zu beobachten, die auf großen Sprachmodellen (LLMs) basieren und in der Lage sind, eigenständig verschiedene gerätesteuernde Aufgaben auf der Grundlage natürlicher Sprachbefehle auszuführen. Die steigende Genauigkeit dieser Agenten in Standard-Benchmarks hat die Erwartungen an einen großflächigen Einsatz in der Praxis geweckt, und es wurden bereits mehrere kommerzielle Agenten veröffentlicht und von Early Adopters genutzt. Doch sind wir wirklich bereit dafür, GUI-Agenten als systemische Bausteine in unsere Alltagsgeräte zu integrieren? Wir vertreten die Auffassung, dass eine wichtige Vorabprüfung vor der Bereitstellung fehlt, nämlich zu untersuchen, ob die Agenten ihre Leistung unter realen Bedrohungsszenarien aufrechterhalten können. Konkret unterscheiden sich reale Apps dadurch von bestehenden gängigen Benchmarks, die auf einfachen, statischen App-Inhalten basieren (was notwendig ist, um die Konsistenz der Testumgebung zwischen verschiedenen Tests zu gewährleisten), dass sie mit Inhalten von nicht vertrauenswürdigen Dritten gefüllt sind, wie z.B. Werbe-E-Mails, nutzergenerierte Beiträge und Medien, etc. ... Zu diesem Zweck führen wir ein skalierbares Framework zur Instrumentierung von App-Inhalten ein, das flexible und gezielte Inhaltsmodifikationen innerhalb bestehender Anwendungen ermöglicht. Mithilfe dieses Frameworks erstellen wir einen Testumfang, der sowohl eine dynamische Aufgabenausführungsumgebung als auch einen statischen Datensatz mit anspruchsvollen GUI-Zuständen umfasst. Die dynamische Umgebung umfasst 122 reproduzierbare Aufgaben, und der statische Datensatz besteht aus über 3.000 Szenarien, die aus kommerziellen Apps konstruiert wurden. Wir führen Experimente mit sowohl Open-Source- als auch kommerziellen GUI-Agenten durch. Unsere Ergebnisse zeigen, dass die Leistung aller untersuchten Agenten aufgrund von Inhalten Dritter erheblich beeinträchtigt werden kann, mit durchschnittlichen Irreführungsraten von 42,0 % bzw. 36,1 % in den dynamischen und statischen Umgebungen. Das Framework und der Benchmark wurden unter https://agenthazard.github.io veröffentlicht.
English
Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.