ChatPaper.aiChatPaper

Mano Rapport

Mano Report

September 22, 2025
Auteurs: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI

Samenvatting

Grafische gebruikersinterfaces (GUI's) zijn het primaire medium voor mens-computerinteractie, maar het automatiseren van GUI-interacties blijft een uitdaging vanwege de complexiteit van visuele elementen, dynamische omgevingen en de noodzaak van meerstaps redeneren. Bestaande methoden gebaseerd op vision-language modellen (VLM's) kampen vaak met beperkte resolutie, domeinmismatch en onvoldoende sequentiële besluitvormingscapaciteit. Om deze problemen aan te pakken, stellen we Mano voor, een robuuste GUI-agent gebouwd op een multimodaal foundation model dat is voorgetraind op uitgebreide web- en computersysteemdata. Onze aanpak integreert een nieuwe gesimuleerde omgeving voor het genereren van hoogwaardige data, een drietraps trainingspijplijn (gesuperviseerde fine-tuning, offline reinforcement learning en online reinforcement learning) en een verificatiemodule voor foutherstel. Mano toont state-of-the-art prestaties op meerdere GUI-benchmarks, waaronder Mind2Web en OSWorld, met aanzienlijke verbeteringen in succespercentage en operationele nauwkeurigheid. Ons werk biedt nieuwe inzichten in de effectieve integratie van reinforcement learning met VLM's voor praktische inzet van GUI-agenten, waarbij het belang wordt benadrukt van domeinspecifieke data, iteratieve training en holistische beloningsontwerpen.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.
PDF92September 23, 2025