Мобильные GUI-агенты в условиях реальных угроз: Достигли ли мы цели?

Аннотация

В последние годы наблюдается стремительное развитие мобильных GUI-агентов на базе больших языковых моделей (LLM), способных автономно выполнять разнообразные задачи управления устройствами на основе инструкций на естественном языке. Рост точности этих агентов на стандартных бенчмарках повысил ожидания относительно их широкомасштабного развертывания в реальных условиях, и уже выпущено несколько коммерческих агентов, используемых ранними последователями. Однако действительно ли мы готовы к интеграции GUI-агентов в наши повседневные устройства как системных компонентов? Мы утверждаем, что отсутствует важная проверка перед развертыванием, призванная оценить, способны ли агенты сохранять свою производительность в условиях реальных угроз. В частности, в отличие от существующих распространенных бенчмарков, основанных на простом статическом контенте приложений (что необходимо для обеспечения согласованности среды между различными тестами), реальные приложения наполнены контентом из ненадежных сторонних источников, таких как рекламные электронные письма, пользовательские публикации и медиафайлы и т.д. ... С этой целью мы представляем масштабируемую инфраструктуру инструментирования контента приложений для обеспечения гибких и целенаправленных модификаций контента в существующих приложениях. Используя эту инфраструктуру, мы создаем тестовый набор, включающий как динамическую среду выполнения задач, так и статический набор данных сложных состояний GUI. Динамическая среда охватывает 122 воспроизводимые задачи, а статический набор данных состоит из более чем 3000 сценариев, созданных на основе коммерческих приложений. Мы проводим эксперименты как с открытыми, так и с коммерческими GUI-агентами. Наши результаты показывают, что все исследованные агенты могут быть существенно деградированы из-за стороннего контента, со средней частотой введения в заблуждение 42,0% и 36,1% в динамической и статической средах соответственно. Инфраструктура и бенчмарк выпущены по адресу https://agenthazard.github.io.

English

Recent years have witnessed a rapid development of mobile GUI agents powered by large language models (LLMs), which can autonomously execute diverse device-control tasks based on natural language instructions. The increasing accuracy of these agents on standard benchmarks has raised expectations for large-scale real-world deployment, and there are already several commercial agents released and used by early adopters. However, are we really ready for GUI agents integrated into our daily devices as system building blocks? We argue that an important pre-deployment validation is missing to examine whether the agents can maintain their performance under real-world threats. Specifically, unlike existing common benchmarks that are based on simple static app contents (they have to do so to ensure environment consistency between different tests), real-world apps are filled with contents from untrustworthy third parties, such as advertisement emails, user-generated posts and medias, etc. ... To this end, we introduce a scalable app content instrumentation framework to enable flexible and targeted content modifications within existing applications. Leveraging this framework, we create a test suite comprising both a dynamic task execution environment and a static dataset of challenging GUI states. The dynamic environment encompasses 122 reproducible tasks, and the static dataset consists of over 3,000 scenarios constructed from commercial apps. We perform experiments on both open-source and commercial GUI agents. Our findings reveal that all examined agents can be significantly degraded due to third-party contents, with an average misleading rate of 42.0% and 36.1% in dynamic and static environments respectively. The framework and benchmark has been released at https://agenthazard.github.io.

Мобильные GUI-агенты в условиях реальных угроз: Достигли ли мы цели?

Mobile GUI Agents under Real-world Threats: Are We There Yet?

Аннотация

Support