ChatPaper.aiChatPaper

Mirage-1: Potenziamento e Aggiornamento dell'Agente GUI con Abilità Multimodali Gerarchiche

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

June 12, 2025
Autori: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI

Abstract

I recenti sforzi per sfruttare il Modello Linguistico Multimodale di Grande Scala (MLLM) come agenti GUI hanno prodotto risultati promettenti. Tuttavia, questi agenti continuano a lottare con compiti a lungo termine in ambienti online, principalmente a causa di conoscenze insufficienti e del divario intrinseco tra i domini offline e online. In questo articolo, ispirati da come gli esseri umani generalizzano la conoscenza in ambienti aperti, proponiamo un modulo di Abilità Multimodali Gerarchiche (HMS) per affrontare il problema della conoscenza insufficiente. Esso astrae progressivamente le traiettorie in abilità esecutive, abilità fondamentali e, infine, meta-abilità, fornendo una struttura gerarchica della conoscenza per la pianificazione di compiti a lungo termine. Per colmare il divario di dominio, proponiamo l'algoritmo di Ricerca Monte Carlo ad Albero con Abilità Aumentate (SA-MCTS), che sfrutta in modo efficiente le abilità acquisite in ambienti offline per ridurre lo spazio di ricerca delle azioni durante l'esplorazione ad albero online. Basandoci su HMS, proponiamo Mirage-1, un agente GUI multimodale, cross-platform e plug-and-play. Per validare le prestazioni di Mirage-1 in scenari reali a lungo termine, abbiamo costruito un nuovo benchmark, AndroidLH. I risultati sperimentali mostrano che Mirage-1 supera i precedenti agenti rispettivamente del 32%, 19%, 15% e 79% su AndroidWorld, MobileMiniWob++, Mind2Web-Live e AndroidLH. Pagina del progetto: https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI agents have yielded promising outcomes. However, these agents still struggle with long-horizon tasks in online environments, primarily due to insufficient knowledge and the inherent gap between offline and online domains. In this paper, inspired by how humans generalize knowledge in open-ended environments, we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of insufficient knowledge. It progressively abstracts trajectories into execution skills, core skills, and ultimately meta-skills, providing a hierarchical knowledge structure for long-horizon task planning. To bridge the domain gap, we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm, which efficiently leverages skills acquired in offline environments to reduce the action search space during online tree exploration. Building on HMS, we propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To validate the performance of Mirage-1 in real-world long-horizon scenarios, we constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1 outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld, MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page: https://cybertronagent.github.io/Mirage-1.github.io/
PDF52June 16, 2025