ChatPaper.aiChatPaper

Mirage-1: Mejora y Actualización del Agente GUI con Habilidades Multimodales Jerárquicas

Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

June 12, 2025
Autores: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI

Resumen

Los recientes esfuerzos para aprovechar el Modelo de Lenguaje Multimodal de Gran Escala (MLLM) como agentes de interfaz gráfica de usuario (GUI) han arrojado resultados prometedores. Sin embargo, estos agentes aún enfrentan dificultades con tareas de largo plazo en entornos en línea, principalmente debido a conocimientos insuficientes y la brecha inherente entre los dominios fuera de línea y en línea. En este artículo, inspirados por cómo los humanos generalizan conocimientos en entornos abiertos, proponemos un módulo de Habilidades Multimodales Jerárquicas (HMS) para abordar el problema del conocimiento insuficiente. Este módulo abstrae progresivamente las trayectorias en habilidades de ejecución, habilidades centrales y, finalmente, meta-habilidades, proporcionando una estructura de conocimiento jerárquica para la planificación de tareas de largo plazo. Para cerrar la brecha entre dominios, proponemos el algoritmo de Búsqueda en Árbol de Monte Carlo Aumentado con Habilidades (SA-MCTS), que aprovecha eficientemente las habilidades adquiridas en entornos fuera de línea para reducir el espacio de búsqueda de acciones durante la exploración en línea. Basándonos en HMS, proponemos Mirage-1, un agente GUI multimodal, multiplataforma y plug-and-play. Para validar el rendimiento de Mirage-1 en escenarios reales de largo plazo, construimos un nuevo punto de referencia, AndroidLH. Los resultados experimentales muestran que Mirage-1 supera a los agentes anteriores en un 32%, 19%, 15% y 79% en AndroidWorld, MobileMiniWob++, Mind2Web-Live y AndroidLH, respectivamente. Página del proyecto: https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI agents have yielded promising outcomes. However, these agents still struggle with long-horizon tasks in online environments, primarily due to insufficient knowledge and the inherent gap between offline and online domains. In this paper, inspired by how humans generalize knowledge in open-ended environments, we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of insufficient knowledge. It progressively abstracts trajectories into execution skills, core skills, and ultimately meta-skills, providing a hierarchical knowledge structure for long-horizon task planning. To bridge the domain gap, we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm, which efficiently leverages skills acquired in offline environments to reduce the action search space during online tree exploration. Building on HMS, we propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To validate the performance of Mirage-1 in real-world long-horizon scenarios, we constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1 outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld, MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page: https://cybertronagent.github.io/Mirage-1.github.io/
PDF42June 16, 2025