Relatório Técnico MAI-UI: Agentes de Interface Gráfica Fundamentais Centrados no Mundo Real

Resumo

O desenvolvimento de agentes de interface gráfica (GUI) pode revolucionar a próxima geração de interação homem-computador. Motivados por esta visão, apresentamos o MAI-UI, uma família de agentes de GUI fundamentais que abrange todo o espectro de tamanhos, incluindo variantes de 2B, 8B, 32B e 235B-A22B. Identificamos quatro desafios principais para uma implantação realista: a falta de interação nativa entre agente e utilizador, os limites da operação exclusiva com interface gráfica, a ausência de uma arquitetura de implantação prática e a fragilidade em ambientes dinâmicos. O MAI-UI aborda estas questões com uma metodologia unificada: um *pipeline* de dados de auto-evolução que expande os dados de navegação para incluir interação do utilizador e chamadas de ferramentas MCP, um sistema nativo de colaboração dispositivo-nuvem que direciona a execução pelo estado da tarefa, e um *framework* de RL (*Reinforcement Learning*) online com otimizações avançadas para dimensionar ambientes paralelos e o comprimento do contexto. O MAI-UI estabelece um novo estado da arte em *grounding* de GUI e navegação móvel. Em *benchmarks* de *grounding*, atinge 73,5% no ScreenSpot-Pro, 91,3% no MMBench GUI L2, 70,9% no OSWorld-G e 49,2% no UI-Vision, superando o Gemini-3-Pro e o Seed1.8 no ScreenSpot-Pro. Na navegação móvel por GUI, estabelece um novo SOTA de 76,7% no AndroidWorld, superando o UI-Tars-2, o Gemini-2.5-Pro e o Seed1.8. No MobileWorld, o MAI-UI obtém uma taxa de sucesso de 41,7%, superando significativamente os modelos de GUI de ponta a ponta e sendo competitivo com *frameworks* de agentes baseados no Gemini-3-Pro. As nossas experiências com RL online mostram ganhos significativos ao dimensionar ambientes paralelos de 32 para 512 (+5,2 pontos) e aumentar o orçamento de etapas do ambiente de 15 para 50 (+4,3 pontos). Por fim, o sistema nativo de colaboração dispositivo-nuvem melhora o desempenho no dispositivo em 33%, reduz as chamadas ao modelo na nuvem em mais de 40% e preserva a privacidade do utilizador.

English

The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.