ChatPaper.aiChatPaper

Mano-Bericht

Mano Report

September 22, 2025
papers.authors: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI

papers.abstract

Grafische Benutzeroberflächen (GUIs) sind das primäre Medium für die Mensch-Computer-Interaktion, dennoch bleibt die Automatisierung von GUI-Interaktionen aufgrund der Komplexität visueller Elemente, dynamischer Umgebungen und der Notwendigkeit von mehrstufigem Denken eine Herausforderung. Bestehende Methoden, die auf Vision-Language-Modellen (VLMs) basieren, leiden oft unter begrenzter Auflösung, Domäneninkongruenz und unzureichender Fähigkeit zur sequenziellen Entscheidungsfindung. Um diese Probleme zu lösen, schlagen wir Mano vor, einen robusten GUI-Agenten, der auf einem multimodalen Basismodell aufbaut, das umfangreich mit Web- und Computersystemdaten vortrainiert wurde. Unser Ansatz integriert eine neuartige simulierte Umgebung zur Erzeugung hochwertiger Daten, eine dreistufige Trainingspipeline (überwachtes Feintuning, Offline-Reinforcement-Learning und Online-Reinforcement-Learning) sowie ein Verifizierungsmodul zur Fehlerbehebung. Mano zeigt Spitzenleistungen auf mehreren GUI-Benchmarks, einschließlich Mind2Web und OSWorld, und erzielt signifikante Verbesserungen bei der Erfolgsrate und der operationellen Genauigkeit. Unsere Arbeit bietet neue Einblicke in die effektive Integration von Reinforcement-Learning mit VLMs für die praktische Bereitstellung von GUI-Agenten und unterstreicht die Bedeutung von domänenspezifischen Daten, iterativem Training und ganzheitlichem Belohnungsdesign.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.
PDF82September 23, 2025