Agent Mobile-E : Assistant Mobile Auto-Évolutif pour les Tâches Complexes
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
January 20, 2025
Auteurs: Zhenhailong Wang, Haiyang Xu, Junyang Wang, Xi Zhang, Ming Yan, Ji Zhang, Fei Huang, Heng Ji
cs.AI
Résumé
Les smartphones sont devenus indispensables dans la vie moderne, cependant, la réalisation de tâches complexes sur les appareils mobiles reste souvent frustrante. Les récents progrès des agents mobiles basés sur de grands modèles multimodaux (LMM) ont démontré la capacité de percevoir et d'agir dans des environnements mobiles. Cependant, les approches actuelles présentent des limitations significatives : elles peinent à répondre aux besoins humains réels, rencontrent des difficultés avec les tâches nécessitant un raisonnement intensif et à long terme, et manquent de mécanismes pour apprendre et s'améliorer à partir d'expériences antérieures. Pour surmonter ces défis, nous présentons Mobile-Agent-E, un cadre multi-agent hiérarchique capable d'auto-évolution à travers l'expérience passée. Par hiérarchique, nous entendons une séparation explicite entre la planification haut-niveau et l'exécution d'actions bas-niveau. Le cadre comprend un Gestionnaire, chargé d'élaborer des plans globaux en décomposant des tâches complexes en sous-objectifs, et quatre agents subordonnés - Percepteur, Opérateur, Réflecteur d'Action et Preneur de Notes - qui gèrent respectivement la perception visuelle fine, l'exécution d'actions immédiates, la vérification d'erreurs et l'agrégation d'informations. Mobile-Agent-E comprend également un module d'auto-évolution novateur qui maintient une mémoire à long terme persistante comprenant des Astuces et des Raccourcis. Les Astuces sont des conseils généraux et des leçons apprises à partir de tâches antérieures sur la manière d'interagir efficacement avec l'environnement. Les Raccourcis sont des séquences réutilisables et exécutables d'opérations atomiques adaptées à des sous-routines spécifiques. L'inclusion des Astuces et des Raccourcis facilite un affinement continu des performances et de l'efficacité. En parallèle de ce cadre, nous présentons Mobile-Eval-E, un nouvel banc d'essai comprenant des tâches mobiles complexes nécessitant des interactions multi-applications à long terme. Les résultats empiriques montrent que Mobile-Agent-E réalise une amélioration absolue de 22 % par rapport aux approches précédentes de pointe sur trois bases de modèles fondamentaux. Page du projet : https://x-plug.github.io/MobileAgent.
English
Smartphones have become indispensable in modern life, yet navigating complex
tasks on mobile devices often remains frustrating. Recent advancements in large
multimodal model (LMM)-based mobile agents have demonstrated the ability to
perceive and act in mobile environments. However, current approaches face
significant limitations: they fall short in addressing real-world human needs,
struggle with reasoning-intensive and long-horizon tasks, and lack mechanisms
to learn and improve from prior experiences. To overcome these challenges, we
introduce Mobile-Agent-E, a hierarchical multi-agent framework capable of
self-evolution through past experience. By hierarchical, we mean an explicit
separation of high-level planning and low-level action execution. The framework
comprises a Manager, responsible for devising overall plans by breaking down
complex tasks into subgoals, and four subordinate agents--Perceptor, Operator,
Action Reflector, and Notetaker--which handle fine-grained visual perception,
immediate action execution, error verification, and information aggregation,
respectively. Mobile-Agent-E also features a novel self-evolution module which
maintains a persistent long-term memory comprising Tips and Shortcuts. Tips are
general guidance and lessons learned from prior tasks on how to effectively
interact with the environment. Shortcuts are reusable, executable sequences of
atomic operations tailored for specific subroutines. The inclusion of Tips and
Shortcuts facilitates continuous refinement in performance and efficiency.
Alongside this framework, we introduce Mobile-Eval-E, a new benchmark featuring
complex mobile tasks requiring long-horizon, multi-app interactions. Empirical
results show that Mobile-Agent-E achieves a 22% absolute improvement over
previous state-of-the-art approaches across three foundation model backbones.
Project page: https://x-plug.github.io/MobileAgent.Summary
AI-Generated Summary