ChatPaper.aiChatPaper

Rapporto Tecnico MAI-UI: Agenti GUI Foundation a Orientamento Real-World

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

December 26, 2025
Autori: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi
cs.AI

Abstract

Lo sviluppo di agenti GUI potrebbe rivoluzionare la prossima generazione di interazione uomo-computer. Spinti da questa visione, presentiamo MAI-UI, una famiglia di agenti GUI fondazionali che copre l'intero spettro di dimensioni, incluse varianti da 2B, 8B, 32B e 235B-A22B. Identifichiamo quattro sfide chiave per una distribuzione realistica: la mancanza di un'interazione nativa agente-utente, i limiti del funzionamento basato esclusivamente sull'interfaccia utente, l'assenza di un'architettura di distribuzione pratica e la fragilità in ambienti dinamici. MAI-UI affronta questi problemi con una metodologia unificata: una pipeline di dati auto-evolutiva che espande i dati di navigazione per includere l'interazione utente e le chiamate agli strumenti MCP, un sistema nativo di collaborazione dispositivo-cloud che instrada l'esecuzione in base allo stato del compito e un framework di RL online con ottimizzazioni avanzate per scalare ambienti paralleli e lunghezza del contesto. MAI-UI stabilisce nuovi state-of-the-art nel grounding GUI e nella navigazione mobile. Sui benchmark di grounding, raggiunge il 73,5% su ScreenSpot-Pro, il 91,3% su MMBench GUI L2, il 70,9% su OSWorld-G e il 49,2% su UI-Vision, superando Gemini-3-Pro e Seed1.8 su ScreenSpot-Pro. Nella navigazione GUI mobile, stabilisce un nuovo SOTA del 76,7% su AndroidWorld, superando UI-Tars-2, Gemini-2.5-Pro e Seed1.8. Su MobileWorld, MAI-UI ottiene un tasso di successo del 41,7%, superando significativamente i modelli GUI end-to-end e risultando competitivo con i framework agentistici basati su Gemini-3-Pro. I nostri esperimenti di RL online mostrano miglioramenti significativi derivanti dal ridimensionamento degli ambienti paralleli da 32 a 512 (+5,2 punti) e dall'aumento del budget di step ambientali da 15 a 50 (+4,3 punti). Infine, il sistema nativo di collaborazione dispositivo-cloud migliora le prestazioni sul dispositivo del 33%, riduce le chiamate al modello cloud di oltre il 40% e preserva la privacy dell'utente.
English
The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.
PDF190December 30, 2025