ChatPaper.aiChatPaper

Informe Técnico MAI-UI: Agentes GUI de Base Centrados en el Mundo Real

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

December 26, 2025
Autores: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi
cs.AI

Resumen

El desarrollo de agentes de interfaz gráfica de usuario (GUI) podría revolucionar la próxima generación de interacción persona-computadora. Motivados por esta visión, presentamos MAI-UI, una familia de agentes GUI fundamentales que abarca todo el espectro de tamaños, incluyendo variantes de 2B, 8B, 32B y 235B-A22B. Identificamos cuatro desafíos clave para un despliegue realista: la falta de interacción nativa agente-usuario, los límites de la operación exclusiva con interfaz de usuario, la ausencia de una arquitectura de despliegue práctica y la fragilidad en entornos dinámicos. MAI-UI aborda estos problemas con una metodología unificada: una canalización de datos de auto-evolución que expande los datos de navegación para incluir interacción del usuario y llamadas a herramientas MCP, un sistema nativo de colaboración dispositivo-nube que enruta la ejecución por estado de la tarea, y un marco de aprendizaje por refuerzo (RL) en línea con optimizaciones avanzadas para escalar entornos paralelos y longitud de contexto. MAI-UI establece un nuevo estado del arte en fundamentación GUI y navegación móvil. En benchmarks de fundamentación, alcanza un 73.5% en ScreenSpot-Pro, 91.3% en MMBench GUI L2, 70.9% en OSWorld-G y 49.2% en UI-Vision, superando a Gemini-3-Pro y Seed1.8 en ScreenSpot-Pro. En navegación GUI móvil, establece un nuevo SOTA del 76.7% en AndroidWorld, superando a UI-Tars-2, Gemini-2.5-Pro y Seed1.8. En MobileWorld, MAI-UI obtiene una tasa de éxito del 41.7%, superando significativamente a los modelos GUI de extremo a extremo y siendo competitivo con los marcos agenticos basados en Gemini-3-Pro. Nuestros experimentos de RL en línea muestran ganancias significativas al escalar entornos paralelos de 32 a 512 (+5.2 puntos) y aumentar el presupuesto de pasos del entorno de 15 a 50 (+4.3 puntos). Finalmente, el sistema nativo de colaboración dispositivo-nube mejora el rendimiento en el dispositivo en un 33%, reduce las llamadas al modelo en la nube en más del 40% y preserva la privacidad del usuario.
English
The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.
PDF190December 30, 2025