ChatPaper.aiChatPaper

Mirage-1: Aprimorando e Atualizando Agentes de Interface Gráfica com Habilidades Multimodais Hierárquicas

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

June 12, 2025
Autores: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI

Resumo

Esforços recentes para aproveitar o Modelo de Linguagem de Grande Escala Multimodal (MLLM) como agentes de interface gráfica do usuário (GUI) têm gerado resultados promissores. No entanto, esses agentes ainda enfrentam dificuldades com tarefas de longo prazo em ambientes online, principalmente devido ao conhecimento insuficiente e à lacuna inerente entre os domínios offline e online. Neste artigo, inspirados pela forma como os seres humanos generalizam o conhecimento em ambientes abertos, propomos um módulo de Habilidades Multimodais Hierárquicas (HMS) para abordar a questão do conhecimento insuficiente. Ele abstrai progressivamente trajetórias em habilidades de execução, habilidades centrais e, finalmente, meta-habilidades, fornecendo uma estrutura de conhecimento hierárquica para o planejamento de tarefas de longo prazo. Para preencher a lacuna entre os domínios, propomos o algoritmo de Busca em Árvore de Monte Carlo Aumentada por Habilidades (SA-MCTS), que aproveita eficientemente as habilidades adquiridas em ambientes offline para reduzir o espaço de busca de ações durante a exploração de árvores online. Com base no HMS, propomos o Mirage-1, um agente GUI multimodal, multiplataforma e plug-and-play. Para validar o desempenho do Mirage-1 em cenários reais de longo prazo, construímos um novo benchmark, o AndroidLH. Os resultados experimentais mostram que o Mirage-1 supera os agentes anteriores em 32%, 19%, 15% e 79% no AndroidWorld, MobileMiniWob++, Mind2Web-Live e AndroidLH, respectivamente. Página do projeto: https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI agents have yielded promising outcomes. However, these agents still struggle with long-horizon tasks in online environments, primarily due to insufficient knowledge and the inherent gap between offline and online domains. In this paper, inspired by how humans generalize knowledge in open-ended environments, we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of insufficient knowledge. It progressively abstracts trajectories into execution skills, core skills, and ultimately meta-skills, providing a hierarchical knowledge structure for long-horizon task planning. To bridge the domain gap, we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm, which efficiently leverages skills acquired in offline environments to reduce the action search space during online tree exploration. Building on HMS, we propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To validate the performance of Mirage-1 in real-world long-horizon scenarios, we constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1 outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld, MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page: https://cybertronagent.github.io/Mirage-1.github.io/
PDF52June 16, 2025