ChatPaper.aiChatPaper

Rapport Mano

Mano Report

September 22, 2025
papers.authors: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI

papers.abstract

Les interfaces graphiques (GUI) constituent le principal moyen d'interaction homme-machine, mais l'automatisation des interactions avec les GUI reste un défi en raison de la complexité des éléments visuels, des environnements dynamiques et de la nécessité d'un raisonnement en plusieurs étapes. Les méthodes existantes basées sur les modèles vision-langage (VLMs) souffrent souvent d'une résolution limitée, d'un décalage de domaine et d'une capacité insuffisante en matière de prise de décision séquentielle. Pour résoudre ces problèmes, nous proposons Mano, un agent GUI robuste construit sur un modèle de fondation multimodal pré-entraîné sur des données étendues du web et des systèmes informatiques. Notre approche intègre un nouvel environnement simulé pour la génération de données haute fidélité, un pipeline d'entraînement en trois étapes (affinage supervisé, apprentissage par renforcement hors ligne et apprentissage par renforcement en ligne) et un module de vérification pour la récupération d'erreurs. Mano démontre des performances de pointe sur plusieurs benchmarks GUI, notamment Mind2Web et OSWorld, obtenant des améliorations significatives en termes de taux de réussite et de précision opérationnelle. Notre travail apporte de nouvelles perspectives sur l'intégration efficace de l'apprentissage par renforcement avec les VLMs pour le déploiement pratique d'agents GUI, mettant en lumière l'importance des données spécifiques au domaine, de l'entraînement itératif et de la conception holistique des récompenses.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.
PDF82September 23, 2025