ChatPaper.aiChatPaper

Agent Mobile-E : Assistant Mobile Auto-Évolutif pour les Tâches Complexes

Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks

January 20, 2025
Auteurs: Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji
cs.AI

Résumé

Les smartphones sont devenus indispensables dans la vie moderne, cependant, la réalisation de tâches complexes sur les appareils mobiles reste souvent frustrante. Les récents progrès des agents mobiles basés sur de grands modèles multimodaux (LMM) ont démontré la capacité de percevoir et d'agir dans des environnements mobiles. Cependant, les approches actuelles présentent des limitations significatives : elles peinent à répondre aux besoins humains réels, rencontrent des difficultés avec les tâches nécessitant un raisonnement intensif et à long terme, et manquent de mécanismes pour apprendre et s'améliorer à partir d'expériences antérieures. Pour surmonter ces défis, nous présentons Mobile-Agent-E, un cadre multi-agent hiérarchique capable d'auto-évolution à travers l'expérience passée. Par hiérarchique, nous entendons une séparation explicite entre la planification haut-niveau et l'exécution d'actions bas-niveau. Le cadre comprend un Gestionnaire, chargé d'élaborer des plans globaux en décomposant des tâches complexes en sous-objectifs, et quatre agents subordonnés - Percepteur, Opérateur, Réflecteur d'Action et Preneur de Notes - qui gèrent respectivement la perception visuelle fine, l'exécution d'actions immédiates, la vérification d'erreurs et l'agrégation d'informations. Mobile-Agent-E comprend également un module d'auto-évolution novateur qui maintient une mémoire à long terme persistante comprenant des Astuces et des Raccourcis. Les Astuces sont des conseils généraux et des leçons apprises à partir de tâches antérieures sur la manière d'interagir efficacement avec l'environnement. Les Raccourcis sont des séquences réutilisables et exécutables d'opérations atomiques adaptées à des sous-routines spécifiques. L'inclusion des Astuces et des Raccourcis facilite un affinement continu des performances et de l'efficacité. En parallèle de ce cadre, nous présentons Mobile-Eval-E, un nouvel banc d'essai comprenant des tâches mobiles complexes nécessitant des interactions multi-applications à long terme. Les résultats empiriques montrent que Mobile-Agent-E réalise une amélioration absolue de 22 % par rapport aux approches précédentes de pointe sur trois bases de modèles fondamentaux. Page du projet : https://x-plug.github.io/MobileAgent.
English
Smartphones have become indispensable in modern life, yet navigating complex tasks on mobile devices often remains frustrating. Recent advancements in large multimodal model (LMM)-based mobile agents have demonstrated the ability to perceive and act in mobile environments. However, current approaches face significant limitations: they fall short in addressing real-world human needs, struggle with reasoning-intensive and long-horizon tasks, and lack mechanisms to learn and improve from prior experiences. To overcome these challenges, we introduce Mobile-Agent-E, a hierarchical multi-agent framework capable of self-evolution through past experience. By hierarchical, we mean an explicit separation of high-level planning and low-level action execution. The framework comprises a Manager, responsible for devising overall plans by breaking down complex tasks into subgoals, and four subordinate agents--Perceptor, Operator, Action Reflector, and Notetaker--which handle fine-grained visual perception, immediate action execution, error verification, and information aggregation, respectively. Mobile-Agent-E also features a novel self-evolution module which maintains a persistent long-term memory comprising Tips and Shortcuts. Tips are general guidance and lessons learned from prior tasks on how to effectively interact with the environment. Shortcuts are reusable, executable sequences of atomic operations tailored for specific subroutines. The inclusion of Tips and Shortcuts facilitates continuous refinement in performance and efficiency. Alongside this framework, we introduce Mobile-Eval-E, a new benchmark featuring complex mobile tasks requiring long-horizon, multi-app interactions. Empirical results show that Mobile-Agent-E achieves a 22% absolute improvement over previous state-of-the-art approaches across three foundation model backbones. Project page: https://x-plug.github.io/MobileAgent.

Summary

AI-Generated Summary

PDF292January 22, 2025