ChatPaper.aiChatPaper

Relatório Mano

Mano Report

September 22, 2025
Autores: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI

Resumo

Interfaces gráficas de usuário (GUIs) são o principal meio de interação humano-computador, mas a automação de interações com GUIs continua desafiadora devido à complexidade dos elementos visuais, ambientes dinâmicos e a necessidade de raciocínio em múltiplas etapas. Métodos existentes baseados em modelos visão-linguagem (VLMs) frequentemente sofrem com resolução limitada, incompatibilidade de domínio e capacidade insuficiente de tomada de decisão sequencial. Para abordar esses problemas, propomos Mano, um agente de GUI robusto construído sobre um modelo de base multimodal pré-treinado em dados extensivos da web e de sistemas computacionais. Nossa abordagem integra um ambiente simulado inovador para geração de dados de alta fidelidade, um pipeline de treinamento em três estágios (ajuste fino supervisionado, aprendizado por reforço offline e aprendizado por reforço online) e um módulo de verificação para recuperação de erros. Mano demonstra desempenho de ponta em múltiplos benchmarks de GUI, incluindo Mind2Web e OSWorld, alcançando melhorias significativas na taxa de sucesso e precisão operacional. Nosso trabalho fornece novos insights sobre a integração eficaz de aprendizado por reforço com VLMs para a implantação prática de agentes de GUI, destacando a importância de dados específicos do domínio, treinamento iterativo e design holístico de recompensas.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.
PDF92September 23, 2025