ChatPaper.aiChatPaper

Informe Mano

Mano Report

September 22, 2025
Autores: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI

Resumen

Las interfaces gráficas de usuario (GUI) son el principal medio de interacción entre humanos y computadoras, sin embargo, automatizar las interacciones con GUI sigue siendo un desafío debido a la complejidad de los elementos visuales, los entornos dinámicos y la necesidad de razonamiento en múltiples pasos. Los métodos existentes basados en modelos de visión y lenguaje (VLMs) a menudo presentan limitaciones en la resolución, desajustes de dominio y capacidades insuficientes para la toma de decisiones secuenciales. Para abordar estos problemas, proponemos Mano, un agente de GUI robusto construido sobre un modelo base multimodal preentrenado con datos extensos de la web y sistemas informáticos. Nuestro enfoque integra un entorno simulado novedoso para la generación de datos de alta fidelidad, una canalización de entrenamiento en tres etapas (ajuste fino supervisado, aprendizaje por refuerzo fuera de línea y aprendizaje por refuerzo en línea) y un módulo de verificación para la recuperación de errores. Mano demuestra un rendimiento de vanguardia en múltiples benchmarks de GUI, incluyendo Mind2Web y OSWorld, logrando mejoras significativas en la tasa de éxito y la precisión operativa. Nuestro trabajo aporta nuevas perspectivas sobre la integración efectiva del aprendizaje por refuerzo con VLMs para el despliegue práctico de agentes de GUI, destacando la importancia de los datos específicos del dominio, el entrenamiento iterativo y el diseño holístico de recompensas.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.
PDF82September 23, 2025