ChatPaper.aiChatPaper

Mirage-1: Uitbreiding en actualisering van GUI-agent met hiërarchische multimodale vaardigheden

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

June 12, 2025
Auteurs: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI

Samenvatting

Recente inspanningen om het Multi-modale Grote Taalmodel (MLLM) in te zetten als GUI-agenten hebben veelbelovende resultaten opgeleverd. Deze agenten hebben echter nog steeds moeite met langetermijntaken in online omgevingen, voornamelijk door onvoldoende kennis en de inherente kloof tussen offline en online domeinen. In dit artikel, geïnspireerd door hoe mensen kennis generaliseren in open-ended omgevingen, stellen we een Hiërarchisch Multimodaal Vaardigheden (HMS) module voor om het probleem van onvoldoende kennis aan te pakken. Het abstraheert trajecten progressief naar uitvoeringsvaardigheden, kernvaardigheden en uiteindelijk meta-vaardigheden, wat een hiërarchische kennisstructuur biedt voor langetermijn taakplanning. Om de domeinkloof te overbruggen, stellen we het Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algoritme voor, dat efficiënt gebruik maakt van vaardigheden die in offline omgevingen zijn verworven om de actiezoekruimte tijdens online boomverkenning te verkleinen. Op basis van HMS stellen we Mirage-1 voor, een multimodale, cross-platform, plug-and-play GUI-agent. Om de prestaties van Mirage-1 in real-world langetermijnscenario's te valideren, hebben we een nieuwe benchmark, AndroidLH, geconstrueerd. Experimentele resultaten tonen aan dat Mirage-1 eerdere agenten overtreft met respectievelijk 32%, 19%, 15% en 79% op AndroidWorld, MobileMiniWob++, Mind2Web-Live en AndroidLH. Projectpagina: https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI agents have yielded promising outcomes. However, these agents still struggle with long-horizon tasks in online environments, primarily due to insufficient knowledge and the inherent gap between offline and online domains. In this paper, inspired by how humans generalize knowledge in open-ended environments, we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of insufficient knowledge. It progressively abstracts trajectories into execution skills, core skills, and ultimately meta-skills, providing a hierarchical knowledge structure for long-horizon task planning. To bridge the domain gap, we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm, which efficiently leverages skills acquired in offline environments to reduce the action search space during online tree exploration. Building on HMS, we propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To validate the performance of Mirage-1 in real-world long-horizon scenarios, we constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1 outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld, MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page: https://cybertronagent.github.io/Mirage-1.github.io/
PDF52June 16, 2025