ChatPaper.aiChatPaper

Отчет Mano

Mano Report

September 22, 2025
Авторы: Tianyu Fu, Anyang Su, Chenxu Zhao, Hanning Wang, Minghui Wu, Zhe Yu, Fei Hu, Mingjia Shi, Wei Dong, Jiayao Wang, Yuyang Chen, Ruiyang Yu, Siran Peng, Menglin Li, Nan Huang, Haitian Wei, Jiawei Yu, Yi Xin, Xilin Zhao, Kai Gu, Ping Jiang, Sifan Zhou, Shuo Wang
cs.AI

Аннотация

Графические пользовательские интерфейсы (GUI) являются основным средством взаимодействия человека с компьютером, однако автоматизация взаимодействий с GUI остается сложной задачей из-за сложности визуальных элементов, динамичности среды и необходимости многошагового принятия решений. Существующие методы, основанные на моделях, объединяющих зрение и язык (VLMs), часто страдают от ограниченного разрешения, несоответствия доменов и недостаточной способности к последовательному принятию решений. Для решения этих проблем мы предлагаем Mano — надежного агента для работы с GUI, построенного на основе мультимодальной базовой модели, предварительно обученной на обширных данных из веб- и компьютерных систем. Наш подход включает в себя новую симулированную среду для генерации высококачественных данных, трехэтапный процесс обучения (тонкая настройка с учителем, оффлайн-обучение с подкреплением и онлайн-обучение с подкреплением) и модуль проверки для восстановления после ошибок. Mano демонстрирует передовые результаты на нескольких тестовых наборах для GUI, включая Mind2Web и OSWorld, достигая значительного улучшения в показателях успешности и точности операций. Наша работа предоставляет новые идеи для эффективного интеграции обучения с подкреплением с VLMs в практическом развертывании агентов для GUI, подчеркивая важность доменно-специфичных данных, итеративного обучения и целостного проектирования системы вознаграждений.
English
Graphical user interfaces (GUIs) are the primary medium for human-computer interaction, yet automating GUI interactions remains challenging due to the complexity of visual elements, dynamic environments, and the need for multi-step reasoning. Existing methods based on vision-language models (VLMs) often suffer from limited resolution, domain mismatch, and insufficient sequential decisionmaking capability. To address these issues, we propose Mano, a robust GUI agent built upon a multi-modal foundation model pre-trained on extensive web and computer system data. Our approach integrates a novel simulated environment for high-fidelity data generation, a three-stage training pipeline (supervised fine-tuning, offline reinforcement learning, and online reinforcement learning), and a verification module for error recovery. Mano demonstrates state-of-the-art performance on multiple GUI benchmarks, including Mind2Web and OSWorld, achieving significant improvements in success rate and operational accuracy. Our work provides new insights into the effective integration of reinforcement learning with VLMs for practical GUI agent deployment, highlighting the importance of domain-specific data, iterative training, and holistic reward design.
PDF82September 23, 2025