Mirage-1: Erweiterung und Aktualisierung von GUI-Agenten mit hierarchischen multimodalen Fähigkeiten
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
June 12, 2025
papers.authors: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI
papers.abstract
Jüngste Bemühungen, das Multi-modale Large Language Model (MLLM) als GUI-Agenten zu nutzen, haben vielversprechende Ergebnisse erzielt. Dennoch kämpfen diese Agenten weiterhin mit langfristigen Aufgaben in Online-Umgebungen, hauptsächlich aufgrund unzureichenden Wissens und der inhärenten Lücke zwischen Offline- und Online-Domänen. In diesem Artikel schlagen wir, inspiriert davon, wie Menschen Wissen in offenen Umgebungen verallgemeinern, ein Hierarchical Multimodal Skills (HMS)-Modul vor, um das Problem des unzureichenden Wissens zu bewältigen. Es abstrahiert schrittweise Trajektorien in Ausführungsfähigkeiten, Kernfähigkeiten und schließlich Meta-Fähigkeiten, wodurch eine hierarchische Wissensstruktur für die Planung langfristiger Aufgaben bereitgestellt wird. Um die Domänenlücke zu überbrücken, schlagen wir den Skill-Augmented Monte Carlo Tree Search (SA-MCTS)-Algorithmus vor, der effizient in Offline-Umgebungen erworbene Fähigkeiten nutzt, um den Aktionssuchraum während der Online-Baumerkundung zu reduzieren. Aufbauend auf HMS präsentieren wir Mirage-1, einen multimodalen, plattformübergreifenden, Plug-and-Play-GUI-Agenten. Um die Leistung von Mirage-1 in realen langfristigen Szenarien zu validieren, haben wir einen neuen Benchmark, AndroidLH, erstellt. Die experimentellen Ergebnisse zeigen, dass Mirage-1 frühere Agenten auf AndroidWorld, MobileMiniWob++, Mind2Web-Live und AndroidLH um 32 %, 19 %, 15 % bzw. 79 % übertrifft. Projektseite: https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI
agents have yielded promising outcomes. However, these agents still struggle
with long-horizon tasks in online environments, primarily due to insufficient
knowledge and the inherent gap between offline and online domains. In this
paper, inspired by how humans generalize knowledge in open-ended environments,
we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of
insufficient knowledge. It progressively abstracts trajectories into execution
skills, core skills, and ultimately meta-skills, providing a hierarchical
knowledge structure for long-horizon task planning. To bridge the domain gap,
we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm,
which efficiently leverages skills acquired in offline environments to reduce
the action search space during online tree exploration. Building on HMS, we
propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To
validate the performance of Mirage-1 in real-world long-horizon scenarios, we
constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1
outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld,
MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page:
https://cybertronagent.github.io/Mirage-1.github.io/