ChatPaper.aiChatPaper

Mirage-1 : Amélioration et mise à jour d'un agent d'interface graphique avec des compétences multimodales hiérarchiques

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

June 12, 2025
Auteurs: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI

Résumé

Les récents efforts pour exploiter le modèle de langage multimodal à grande échelle (MLLM) en tant qu'agents d'interface graphique (GUI) ont donné des résultats prometteurs. Cependant, ces agents rencontrent encore des difficultés avec les tâches à long terme dans des environnements en ligne, principalement en raison d'une connaissance insuffisante et de l'écart inhérent entre les domaines hors ligne et en ligne. Dans cet article, inspirés par la manière dont les humains généralisent les connaissances dans des environnements ouverts, nous proposons un module de compétences multimodales hiérarchiques (HMS) pour résoudre le problème de l'insuffisance des connaissances. Ce module abstrait progressivement les trajectoires en compétences d'exécution, compétences de base, et finalement méta-compétences, fournissant ainsi une structure de connaissances hiérarchique pour la planification de tâches à long terme. Pour combler l'écart entre les domaines, nous proposons l'algorithme de recherche arborescente Monte Carlo augmentée par les compétences (SA-MCTS), qui exploite efficacement les compétences acquises dans des environnements hors ligne pour réduire l'espace de recherche d'actions lors de l'exploration arborescente en ligne. En nous appuyant sur HMS, nous proposons Mirage-1, un agent GUI multimodal, multiplateforme et plug-and-play. Pour valider les performances de Mirage-1 dans des scénarios réels à long terme, nous avons construit un nouveau benchmark, AndroidLH. Les résultats expérimentaux montrent que Mirage-1 surpasse les agents précédents de 32 %, 19 %, 15 % et 79 % sur AndroidWorld, MobileMiniWob++, Mind2Web-Live et AndroidLH, respectivement. Page du projet : https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI agents have yielded promising outcomes. However, these agents still struggle with long-horizon tasks in online environments, primarily due to insufficient knowledge and the inherent gap between offline and online domains. In this paper, inspired by how humans generalize knowledge in open-ended environments, we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of insufficient knowledge. It progressively abstracts trajectories into execution skills, core skills, and ultimately meta-skills, providing a hierarchical knowledge structure for long-horizon task planning. To bridge the domain gap, we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm, which efficiently leverages skills acquired in offline environments to reduce the action search space during online tree exploration. Building on HMS, we propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To validate the performance of Mirage-1 in real-world long-horizon scenarios, we constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1 outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld, MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page: https://cybertronagent.github.io/Mirage-1.github.io/
PDF42June 16, 2025