AppAgent: Мультимодальные агенты как пользователи смартфонов
AppAgent: Multimodal Agents as Smartphone Users
December 21, 2023
Авторы: Chi Zhang, Zhao Yang, Jiaxuan Liu, Yucheng Han, Xin Chen, Zebiao Huang, Bin Fu, Gang Yu
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) привели к созданию интеллектуальных агентов, способных выполнять сложные задачи. В данной статье представлена новая мультимодальная агентская архитектура на основе LLM, предназначенная для работы с приложениями смартфонов. Наша архитектура позволяет агенту управлять приложениями через упрощённое пространство действий, имитируя человеческие взаимодействия, такие как нажатия и свайпы. Этот инновационный подход устраняет необходимость доступа к внутренним системам, что расширяет его применимость для различных приложений. Ключевым элементом функциональности нашего агента является его уникальный метод обучения. Агент учится ориентироваться и использовать новые приложения либо через автономное исследование, либо наблюдая за демонстрациями человека. Этот процесс создаёт базу знаний, к которой агент обращается для выполнения сложных задач в различных приложениях. Чтобы продемонстрировать практическую применимость нашего агента, мы провели обширное тестирование на 50 задачах в 10 различных приложениях, включая социальные сети, электронную почту, карты, покупки и сложные инструменты редактирования изображений. Результаты подтверждают способность агента успешно справляться с широким спектром высокоуровневых задач.
English
Recent advancements in large language models (LLMs) have led to the creation
of intelligent agents capable of performing complex tasks. This paper
introduces a novel LLM-based multimodal agent framework designed to operate
smartphone applications. Our framework enables the agent to operate smartphone
applications through a simplified action space, mimicking human-like
interactions such as tapping and swiping. This novel approach bypasses the need
for system back-end access, thereby broadening its applicability across diverse
apps. Central to our agent's functionality is its innovative learning method.
The agent learns to navigate and use new apps either through autonomous
exploration or by observing human demonstrations. This process generates a
knowledge base that the agent refers to for executing complex tasks across
different applications. To demonstrate the practicality of our agent, we
conducted extensive testing over 50 tasks in 10 different applications,
including social media, email, maps, shopping, and sophisticated image editing
tools. The results affirm our agent's proficiency in handling a diverse array
of high-level tasks.