Rapport Mano
Mano Report
September 22, 2025
papers.authors: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI
papers.abstract
Les interfaces graphiques (GUI) constituent le principal moyen d'interaction homme-machine, mais l'automatisation des interactions avec les GUI reste un défi en raison de la complexité des éléments visuels, des environnements dynamiques et de la nécessité d'un raisonnement en plusieurs étapes. Les méthodes existantes basées sur les modèles vision-langage (VLMs) souffrent souvent d'une résolution limitée, d'un décalage de domaine et d'une capacité insuffisante en matière de prise de décision séquentielle. Pour résoudre ces problèmes, nous proposons Mano, un agent GUI robuste construit sur un modèle de fondation multimodal pré-entraîné sur des données étendues du web et des systèmes informatiques. Notre approche intègre un nouvel environnement simulé pour la génération de données haute fidélité, un pipeline d'entraînement en trois étapes (affinage supervisé, apprentissage par renforcement hors ligne et apprentissage par renforcement en ligne) et un module de vérification pour la récupération d'erreurs. Mano démontre des performances de pointe sur plusieurs benchmarks GUI, notamment Mind2Web et OSWorld, obtenant des améliorations significatives en termes de taux de réussite et de précision opérationnelle. Notre travail apporte de nouvelles perspectives sur l'intégration efficace de l'apprentissage par renforcement avec les VLMs pour le déploiement pratique d'agents GUI, mettant en lumière l'importance des données spécifiques au domaine, de l'entraînement itératif et de la conception holistique des récompenses.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer
interaction, yet automating GUI interactions remains challenging due to the
complexity of visual elements, dynamic environments, and the need for
multi-step reasoning. Existing methods based on vision-language models (VLMs)
often suffer from limited resolution, domain mismatch, and insufficient
sequential decisionmaking capability. To address these issues, we propose Mano,
a robust GUI agent built upon a multi-modal foundation model pre-trained on
extensive web and computer system data. Our approach integrates a novel
simulated environment for high-fidelity data generation, a three-stage training
pipeline (supervised fine-tuning, offline reinforcement learning, and online
reinforcement learning), and a verification module for error recovery. Mano
demonstrates state-of-the-art performance on multiple GUI benchmarks, including
Mind2Web and OSWorld, achieving significant improvements in success rate and
operational accuracy. Our work provides new insights into the effective
integration of reinforcement learning with VLMs for practical GUI agent
deployment, highlighting the importance of domain-specific data, iterative
training, and holistic reward design.