Mirage-1: Potenziamento e Aggiornamento dell'Agente GUI con Abilità Multimodali Gerarchiche
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
June 12, 2025
Autori: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI
Abstract
I recenti sforzi per sfruttare il Modello Linguistico Multimodale di Grande Scala (MLLM) come agenti GUI hanno prodotto risultati promettenti. Tuttavia, questi agenti continuano a lottare con compiti a lungo termine in ambienti online, principalmente a causa di conoscenze insufficienti e del divario intrinseco tra i domini offline e online. In questo articolo, ispirati da come gli esseri umani generalizzano la conoscenza in ambienti aperti, proponiamo un modulo di Abilità Multimodali Gerarchiche (HMS) per affrontare il problema della conoscenza insufficiente. Esso astrae progressivamente le traiettorie in abilità esecutive, abilità fondamentali e, infine, meta-abilità, fornendo una struttura gerarchica della conoscenza per la pianificazione di compiti a lungo termine. Per colmare il divario di dominio, proponiamo l'algoritmo di Ricerca Monte Carlo ad Albero con Abilità Aumentate (SA-MCTS), che sfrutta in modo efficiente le abilità acquisite in ambienti offline per ridurre lo spazio di ricerca delle azioni durante l'esplorazione ad albero online. Basandoci su HMS, proponiamo Mirage-1, un agente GUI multimodale, cross-platform e plug-and-play. Per validare le prestazioni di Mirage-1 in scenari reali a lungo termine, abbiamo costruito un nuovo benchmark, AndroidLH. I risultati sperimentali mostrano che Mirage-1 supera i precedenti agenti rispettivamente del 32%, 19%, 15% e 79% su AndroidWorld, MobileMiniWob++, Mind2Web-Live e AndroidLH. Pagina del progetto: https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI
agents have yielded promising outcomes. However, these agents still struggle
with long-horizon tasks in online environments, primarily due to insufficient
knowledge and the inherent gap between offline and online domains. In this
paper, inspired by how humans generalize knowledge in open-ended environments,
we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of
insufficient knowledge. It progressively abstracts trajectories into execution
skills, core skills, and ultimately meta-skills, providing a hierarchical
knowledge structure for long-horizon task planning. To bridge the domain gap,
we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm,
which efficiently leverages skills acquired in offline environments to reduce
the action search space during online tree exploration. Building on HMS, we
propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To
validate the performance of Mirage-1 in real-world long-horizon scenarios, we
constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1
outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld,
MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page:
https://cybertronagent.github.io/Mirage-1.github.io/