Мобильный агент-v2: помощник по управлению мобильными устройствами с эффективной навигацией через сотрудничество мультиагентов

Аннотация

Задачи работы с мобильными устройствами все более популярны в качестве сценария мультимодального применения искусственного интеллекта. Нынешние многомодальные модели языка большого масштаба (MLLM), ограниченные своими данными обучения, не обладают способностью эффективно функционировать в качестве помощников по работе с устройствами. Вместо этого агенты на основе MLLM, улучшающие свои возможности через вызов инструментов, постепенно применяются в этом сценарии. Однако две основные проблемы навигации в работе с мобильными устройствами, навигация по ходу выполнения задачи и навигация по содержимому фокуса, значительно усложняются в рамках одноагентной архитектуры существующих работ. Это связано с чрезмерно длинными последовательностями токенов и переплетенным форматом данных текст-изображение, что ограничивает производительность. Для эффективного решения этих проблем навигации мы предлагаем Mobile-Agent-v2, многоагентную архитектуру для помощи в работе с мобильными устройствами. Архитектура включает три агента: планирующий агент, принимающий решения агент и отражающий агент. Планирующий агент генерирует ход выполнения задачи, что делает навигацию по истории операций более эффективной. Для сохранения фокуса на содержимом мы разрабатываем блок памяти, который обновляется вместе с ходом выполнения задачи. Кроме того, для исправления ошибочных операций отражающий агент наблюдает за результатами каждой операции и соответственно обрабатывает любые ошибки. Экспериментальные результаты показывают, что Mobile-Agent-v2 достигает более чем 30% улучшения в выполнении задач по сравнению с одноагентной архитектурой Mobile-Agent. Код доступен на GitHub по ссылке https://github.com/X-PLUG/MobileAgent.

English

Mobile device operation tasks are increasingly becoming a popular multi-modal AI application scenario. Current Multi-modal Large Language Models (MLLMs), constrained by their training data, lack the capability to function effectively as operation assistants. Instead, MLLM-based agents, which enhance capabilities through tool invocation, are gradually being applied to this scenario. However, the two major navigation challenges in mobile device operation tasks, task progress navigation and focus content navigation, are significantly complicated under the single-agent architecture of existing work. This is due to the overly long token sequences and the interleaved text-image data format, which limit performance. To address these navigation challenges effectively, we propose Mobile-Agent-v2, a multi-agent architecture for mobile device operation assistance. The architecture comprises three agents: planning agent, decision agent, and reflection agent. The planning agent generates task progress, making the navigation of history operations more efficient. To retain focus content, we design a memory unit that updates with task progress. Additionally, to correct erroneous operations, the reflection agent observes the outcomes of each operation and handles any mistakes accordingly. Experimental results indicate that Mobile-Agent-v2 achieves over a 30% improvement in task completion compared to the single-agent architecture of Mobile-Agent. The code is open-sourced at https://github.com/X-PLUG/MobileAgent.

Мобильный агент-v2: помощник по управлению мобильными устройствами с эффективной навигацией через сотрудничество мультиагентов

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

Аннотация

Support