Мобильный агент-v2: помощник по управлению мобильными устройствами с эффективной навигацией через сотрудничество мультиагентов
Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
June 3, 2024
Авторы: Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
cs.AI
Аннотация
Задачи работы с мобильными устройствами все более популярны в качестве сценария мультимодального применения искусственного интеллекта. Нынешние многомодальные модели языка большого масштаба (MLLM), ограниченные своими данными обучения, не обладают способностью эффективно функционировать в качестве помощников по работе с устройствами. Вместо этого агенты на основе MLLM, улучшающие свои возможности через вызов инструментов, постепенно применяются в этом сценарии. Однако две основные проблемы навигации в работе с мобильными устройствами, навигация по ходу выполнения задачи и навигация по содержимому фокуса, значительно усложняются в рамках одноагентной архитектуры существующих работ. Это связано с чрезмерно длинными последовательностями токенов и переплетенным форматом данных текст-изображение, что ограничивает производительность. Для эффективного решения этих проблем навигации мы предлагаем Mobile-Agent-v2, многоагентную архитектуру для помощи в работе с мобильными устройствами. Архитектура включает три агента: планирующий агент, принимающий решения агент и отражающий агент. Планирующий агент генерирует ход выполнения задачи, что делает навигацию по истории операций более эффективной. Для сохранения фокуса на содержимом мы разрабатываем блок памяти, который обновляется вместе с ходом выполнения задачи. Кроме того, для исправления ошибочных операций отражающий агент наблюдает за результатами каждой операции и соответственно обрабатывает любые ошибки. Экспериментальные результаты показывают, что Mobile-Agent-v2 достигает более чем 30% улучшения в выполнении задач по сравнению с одноагентной архитектурой Mobile-Agent. Код доступен на GitHub по ссылке https://github.com/X-PLUG/MobileAgent.
English
Mobile device operation tasks are increasingly becoming a popular multi-modal
AI application scenario. Current Multi-modal Large Language Models (MLLMs),
constrained by their training data, lack the capability to function effectively
as operation assistants. Instead, MLLM-based agents, which enhance capabilities
through tool invocation, are gradually being applied to this scenario. However,
the two major navigation challenges in mobile device operation tasks, task
progress navigation and focus content navigation, are significantly complicated
under the single-agent architecture of existing work. This is due to the overly
long token sequences and the interleaved text-image data format, which limit
performance. To address these navigation challenges effectively, we propose
Mobile-Agent-v2, a multi-agent architecture for mobile device operation
assistance. The architecture comprises three agents: planning agent, decision
agent, and reflection agent. The planning agent generates task progress, making
the navigation of history operations more efficient. To retain focus content,
we design a memory unit that updates with task progress. Additionally, to
correct erroneous operations, the reflection agent observes the outcomes of
each operation and handles any mistakes accordingly. Experimental results
indicate that Mobile-Agent-v2 achieves over a 30% improvement in task
completion compared to the single-agent architecture of Mobile-Agent. The code
is open-sourced at https://github.com/X-PLUG/MobileAgent.Summary
AI-Generated Summary