ChatPaper.aiChatPaper

Технический отчет MAI-UI: Фундаментальные GUI-агенты с ориентацией на реальные условия

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

December 26, 2025
Авторы: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi
cs.AI

Аннотация

Разработка GUI-агентов способна произвести революцию в следующем поколении человеко-компьютерного взаимодействия. Воодушевленные этой перспективой, мы представляем MAI-UI — семейство фоновых GUI-агентов, охватывающих весь спектр размеров, включая варианты на 2B, 8B, 32B и 235B-A22B. Мы выделяем четыре ключевые проблемы для практического внедрения: отсутствие нативного взаимодействия агента с пользователем, ограничения работы только с пользовательским интерфейсом, отсутствие практической архитектуры развертывания и хрупкость в динамических средах. MAI-UI решает эти проблемы с помощью единой методологии: саморазвивающийся конвейер данных расширяет навигационные данные, включая взаимодействие с пользователем и вызовы инструментов MCP; нативная система коллаборации "устройство-облако" маршрутизирует выполнение по состоянию задачи; а онлайн-фреймворк RL с продвинутыми оптимизациями позволяет масштабировать параллельные среды и длину контекста. MAI-UI устанавливает новые рекорды в областях GUI-граундинга и мобильной навигации. На бенчмарках граундинга он достигает 73.5% на ScreenSpot-Pro, 91.3% на MMBench GUI L2, 70.9% на OSWorld-G и 49.2% на UI-Vision, превосходя Gemini-3-Pro и Seed1.8 на ScreenSpot-Pro. В мобильной навигации по GUI он устанавливает новый рекорд в 76.7% на AndroidWorld, превосходя UI-Tars-2, Gemini-2.5-Pro и Seed1.8. На MobileWorld MAI-UI демонстрирует успешность 41.7%, значительно опережая end-to-end GUI-модели и конкурируя с агентскими фреймворками на основе Gemini-3-Pro. Наши эксперименты с онлайн-RL показывают значительный прирост от масштабирования параллельных сред с 32 до 512 (+5.2 пункта) и увеличения бюджета шагов среды с 15 до 50 (+4.3 пункта). Наконец, нативная система коллаборации "устройство-облако" улучшает производительность на устройстве на 33%, сокращает вызовы облачной модели более чем на 40% и сохраняет конфиденциальность пользователя.
English
The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.
PDF190December 30, 2025