Rapporto Mano
Mano Report
September 22, 2025
Autori: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI
Abstract
Le interfacce grafiche utente (GUI) rappresentano il principale mezzo di interazione uomo-computer, ma l'automazione delle interazioni con le GUI rimane una sfida a causa della complessità degli elementi visivi, degli ambienti dinamici e della necessità di ragionamenti multi-step. I metodi esistenti basati su modelli visione-linguaggio (VLMs) spesso soffrono di risoluzione limitata, disallineamento di dominio e capacità insufficiente di decisione sequenziale. Per affrontare questi problemi, proponiamo Mano, un agente GUI robusto costruito su un modello fondazionale multi-modale pre-addestrato su un'ampia gamma di dati web e di sistemi informatici. Il nostro approccio integra un nuovo ambiente simulato per la generazione di dati ad alta fedeltà, una pipeline di addestramento in tre fasi (fine-tuning supervisionato, apprendimento per rinforzo offline e apprendimento per rinforzo online) e un modulo di verifica per il recupero degli errori. Mano dimostra prestazioni all'avanguardia su molteplici benchmark GUI, tra cui Mind2Web e OSWorld, ottenendo miglioramenti significativi nel tasso di successo e nella precisione operativa. Il nostro lavoro fornisce nuove intuizioni sull'integrazione efficace dell'apprendimento per rinforzo con i VLMs per il dispiegamento pratico di agenti GUI, evidenziando l'importanza di dati specifici per il dominio, addestramento iterativo e progettazione olistica delle ricompense.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer
interaction, yet automating GUI interactions remains challenging due to the
complexity of visual elements, dynamic environments, and the need for
multi-step reasoning. Existing methods based on vision-language models (VLMs)
often suffer from limited resolution, domain mismatch, and insufficient
sequential decisionmaking capability. To address these issues, we propose Mano,
a robust GUI agent built upon a multi-modal foundation model pre-trained on
extensive web and computer system data. Our approach integrates a novel
simulated environment for high-fidelity data generation, a three-stage training
pipeline (supervised fine-tuning, offline reinforcement learning, and online
reinforcement learning), and a verification module for error recovery. Mano
demonstrates state-of-the-art performance on multiple GUI benchmarks, including
Mind2Web and OSWorld, achieving significant improvements in success rate and
operational accuracy. Our work provides new insights into the effective
integration of reinforcement learning with VLMs for practical GUI agent
deployment, highlighting the importance of domain-specific data, iterative
training, and holistic reward design.