Rapporto Tecnico MAI-UI: Agenti GUI Foundation a Orientamento Real-World

Abstract

Lo sviluppo di agenti GUI potrebbe rivoluzionare la prossima generazione di interazione uomo-computer. Spinti da questa visione, presentiamo MAI-UI, una famiglia di agenti GUI fondazionali che copre l'intero spettro di dimensioni, incluse varianti da 2B, 8B, 32B e 235B-A22B. Identifichiamo quattro sfide chiave per una distribuzione realistica: la mancanza di un'interazione nativa agente-utente, i limiti del funzionamento basato esclusivamente sull'interfaccia utente, l'assenza di un'architettura di distribuzione pratica e la fragilità in ambienti dinamici. MAI-UI affronta questi problemi con una metodologia unificata: una pipeline di dati auto-evolutiva che espande i dati di navigazione per includere l'interazione utente e le chiamate agli strumenti MCP, un sistema nativo di collaborazione dispositivo-cloud che instrada l'esecuzione in base allo stato del compito e un framework di RL online con ottimizzazioni avanzate per scalare ambienti paralleli e lunghezza del contesto. MAI-UI stabilisce nuovi state-of-the-art nel grounding GUI e nella navigazione mobile. Sui benchmark di grounding, raggiunge il 73,5% su ScreenSpot-Pro, il 91,3% su MMBench GUI L2, il 70,9% su OSWorld-G e il 49,2% su UI-Vision, superando Gemini-3-Pro e Seed1.8 su ScreenSpot-Pro. Nella navigazione GUI mobile, stabilisce un nuovo SOTA del 76,7% su AndroidWorld, superando UI-Tars-2, Gemini-2.5-Pro e Seed1.8. Su MobileWorld, MAI-UI ottiene un tasso di successo del 41,7%, superando significativamente i modelli GUI end-to-end e risultando competitivo con i framework agentistici basati su Gemini-3-Pro. I nostri esperimenti di RL online mostrano miglioramenti significativi derivanti dal ridimensionamento degli ambienti paralleli da 32 a 512 (+5,2 punti) e dall'aumento del budget di step ambientali da 15 a 50 (+4,3 punti). Infine, il sistema nativo di collaborazione dispositivo-cloud migliora le prestazioni sul dispositivo del 33%, riduce le chiamate al modello cloud di oltre il 40% e preserva la privacy dell'utente.

English

The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.

Rapporto Tecnico MAI-UI: Agenti GUI Foundation a Orientamento Real-World

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

Abstract

Support