Mobiele GUI-agenten onder real-world bedreigingen: Zijn we er al?

Samenvatting

De afgelopen jaren is er een snelle ontwikkeling gaande van mobiele GUI-agents, aangedreven door grote taalmodellen (LLM's), die autonoom diverse apparaatbesturingstaken kunnen uitvoeren op basis van natuurlijke taal instructies. De toenemende nauwkeurigheid van deze agents op standaard benchmarks heeft de verwachtingen voor grootschalige implementatie in de praktijk doen stijgen, en er zijn reeds verschillende commerciële agents vrijgegeven en in gebruik door early adopters. Maar zijn we werkelijk klaar voor GUI-agents die zijn geïntegreerd in onze dagelijkse apparaten als systeembouwstenen? Wij beargumenteren dat een belangrijke validatie vóór implementatie ontbreekt, namelijk het onderzoeken of de agents hun prestaties kunnen handhaven onder reële bedreigingen. Concreet verschillen bestaande gangbare benchmarks, die gebaseerd zijn op eenvoudige statische app-inhoud (wat nodig is om de omgevingsconsistentie tussen verschillende tests te garanderen), van de praktijk: apps in de echte wereld zitten vol met inhoud van onbetrouwbare derden, zoals reclame-e-mails, door gebruikers gegenereerde berichten en media, enz. ... Hiertoe introduceren we een schaalbaar raamwerk voor app-inhoud instrumentatie om flexibele en gerichte inhoudswijzigingen binnen bestaande applicaties mogelijk te maken. Gebruikmakend van dit raamwerk, creëren we een testsuite bestaande uit zowel een dynamische taakuitvoeringsomgeving als een statische dataset van uitdagende GUI-toestanden. De dynamische omgeving omvat 122 reproduceerbare taken, en de statische dataset bestaat uit meer dan 3.000 scenario's opgebouwd uit commerciële apps. We voeren experimenten uit op zowel open-source als commerciële GUI-agents. Onze bevindingen onthullen dat alle onderzochte agents significant kunnen verslechteren door inhoud van derden, met een gemiddelde misleidingsgraad van respectievelijk 42,0% en 36,1% in de dynamische en statische omgevingen. Het raamwerk en de benchmark zijn vrijgegeven op https://agenthazard.github.io.

English

Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.

Mobiele GUI-agenten onder real-world bedreigingen: Zijn we er al?

Mobile GUI Agents under Real-world Threats: Are We There Yet?

Samenvatting

Support