Mirage-1: Расширение и обновление GUI-агента с использованием иерархических мультимодальных навыков
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills
June 12, 2025
Авторы: Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie
cs.AI
Аннотация
Недавние попытки использования мультимодальных больших языковых моделей (MLLM) в качестве агентов графического интерфейса пользователя (GUI) показали многообещающие результаты. Однако эти агенты по-прежнему испытывают трудности с выполнением долгосрочных задач в онлайн-средах, что в основном связано с недостатком знаний и присущим разрывом между оффлайн- и онлайн-доменами. В данной статье, вдохновляясь тем, как люди обобщают знания в открытых средах, мы предлагаем модуль иерархических мультимодальных навыков (HMS) для решения проблемы недостатка знаний. Этот модуль постепенно абстрагирует траектории в исполнительные навыки, ключевые навыки и, в конечном итоге, мета-навыки, предоставляя иерархическую структуру знаний для планирования долгосрочных задач. Для преодоления разрыва между доменами мы предлагаем алгоритм Skill-Augmented Monte Carlo Tree Search (SA-MCTS), который эффективно использует навыки, приобретенные в оффлайн-средах, для сокращения пространства поиска действий во время онлайн-исследования дерева. На основе HMS мы представляем Mirage-1 — мультимодального, кроссплатформенного, подключаемого агента GUI. Для проверки производительности Mirage-1 в реальных долгосрочных сценариях мы создали новый бенчмарк AndroidLH. Результаты экспериментов показывают, что Mirage-1 превосходит предыдущих агентов на 32%, 19%, 15% и 79% на AndroidWorld, MobileMiniWob++, Mind2Web-Live и AndroidLH соответственно. Страница проекта: https://cybertronagent.github.io/Mirage-1.github.io/
English
Recent efforts to leverage the Multi-modal Large Language Model (MLLM) as GUI
agents have yielded promising outcomes. However, these agents still struggle
with long-horizon tasks in online environments, primarily due to insufficient
knowledge and the inherent gap between offline and online domains. In this
paper, inspired by how humans generalize knowledge in open-ended environments,
we propose a Hierarchical Multimodal Skills (HMS) module to tackle the issue of
insufficient knowledge. It progressively abstracts trajectories into execution
skills, core skills, and ultimately meta-skills, providing a hierarchical
knowledge structure for long-horizon task planning. To bridge the domain gap,
we propose the Skill-Augmented Monte Carlo Tree Search (SA-MCTS) algorithm,
which efficiently leverages skills acquired in offline environments to reduce
the action search space during online tree exploration. Building on HMS, we
propose Mirage-1, a multimodal, cross-platform, plug-and-play GUI agent. To
validate the performance of Mirage-1 in real-world long-horizon scenarios, we
constructed a new benchmark, AndroidLH. Experimental results show that Mirage-1
outperforms previous agents by 32\%, 19\%, 15\%, and 79\% on AndroidWorld,
MobileMiniWob++, Mind2Web-Live, and AndroidLH, respectively. Project page:
https://cybertronagent.github.io/Mirage-1.github.io/