Informe Mano
Mano Report
September 22, 2025
Autores: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI
Resumen
Las interfaces gráficas de usuario (GUI) son el principal medio de interacción entre humanos y computadoras, sin embargo, automatizar las interacciones con GUI sigue siendo un desafío debido a la complejidad de los elementos visuales, los entornos dinámicos y la necesidad de razonamiento en múltiples pasos. Los métodos existentes basados en modelos de visión y lenguaje (VLMs) a menudo presentan limitaciones en la resolución, desajustes de dominio y capacidades insuficientes para la toma de decisiones secuenciales. Para abordar estos problemas, proponemos Mano, un agente de GUI robusto construido sobre un modelo base multimodal preentrenado con datos extensos de la web y sistemas informáticos. Nuestro enfoque integra un entorno simulado novedoso para la generación de datos de alta fidelidad, una canalización de entrenamiento en tres etapas (ajuste fino supervisado, aprendizaje por refuerzo fuera de línea y aprendizaje por refuerzo en línea) y un módulo de verificación para la recuperación de errores. Mano demuestra un rendimiento de vanguardia en múltiples benchmarks de GUI, incluyendo Mind2Web y OSWorld, logrando mejoras significativas en la tasa de éxito y la precisión operativa. Nuestro trabajo aporta nuevas perspectivas sobre la integración efectiva del aprendizaje por refuerzo con VLMs para el despliegue práctico de agentes de GUI, destacando la importancia de los datos específicos del dominio, el entrenamiento iterativo y el diseño holístico de recompensas.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer
interaction, yet automating GUI interactions remains challenging due to the
complexity of visual elements, dynamic environments, and the need for
multi-step reasoning. Existing methods based on vision-language models (VLMs)
often suffer from limited resolution, domain mismatch, and insufficient
sequential decisionmaking capability. To address these issues, we propose Mano,
a robust GUI agent built upon a multi-modal foundation model pre-trained on
extensive web and computer system data. Our approach integrates a novel
simulated environment for high-fidelity data generation, a three-stage training
pipeline (supervised fine-tuning, offline reinforcement learning, and online
reinforcement learning), and a verification module for error recovery. Mano
demonstrates state-of-the-art performance on multiple GUI benchmarks, including
Mind2Web and OSWorld, achieving significant improvements in success rate and
operational accuracy. Our work provides new insights into the effective
integration of reinforcement learning with VLMs for practical GUI agent
deployment, highlighting the importance of domain-specific data, iterative
training, and holistic reward design.