ChatPaper.aiChatPaper

MAI-UI Technisch Rapport: Real-World Centric Foundation GUI Agents

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

December 26, 2025
Auteurs: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi
cs.AI

Samenvatting

De ontwikkeling van GUI-agents zou de volgende generatie mens-computerinteractie kunnen revolutioneren. Gemotiveerd door deze visie presenteren we MAI-UI, een familie van fundamentele GUI-agents die het volledige spectrum aan formaten omvat, waaronder varianten van 2B, 8B, 32B en 235B-A22B. Wij identificeren vier belangrijke uitdagingen voor realistische inzet: het gebrek aan native agent-gebruiker interactie, de beperkingen van UI-only werking, de afwezigheid van een praktische implementatie-architectuur en broosheid in dynamische omgevingen. MAI-UI lost deze problemen op met een uniforme methodologie: een zelf-evoluerende datapijplijn die de navigatiedata uitbreidt om gebruikersinteractie en MCP-toolaanroepen te omvatten, een native device-cloud samenwerkingssysteem dat uitvoering routeert op basis van taakstatus, en een online RL-framework met geavanceerde optimalisaties om parallelle omgevingen en contextlengte te schalen. MAI-UI vestigt nieuwe state-of-the-art prestaties op het gebied van GUI-gronding en mobiele navigatie. Op gronding benchmarks behaalt het 73,5% op ScreenSpot-Pro, 91,3% op MMBench GUI L2, 70,9% op OSWorld-G en 49,2% op UI-Vision, waarmee het Gemini-3-Pro en Seed1.8 op ScreenSpot-Pro overtreft. Op mobiele GUI-navigatie stelt het een nieuwe SOTA van 76,7% vast op AndroidWorld, waarmee het UI-Tars-2, Gemini-2.5-Pro en Seed1.8 overtreft. Op MobileWorld behaalt MAI-UI een slagingspercentage van 41,7%, wat aanzienlijk beter is dan end-to-end GUI-modellen en competitief met op Gemini-3-Pro gebaseerde agent-frameworks. Onze online RL-experimenten tonen significante winsten aan door het schalen van parallelle omgevingen van 32 naar 512 (+5,2 punten) en het verhogen van de omgevingsstapbudget van 15 naar 50 (+4,3 punten). Ten slotte verbetert het native device-cloud samenwerkingssysteem de prestaties op het apparaat met 33%, vermindert het cloudmodelaanroepen met meer dan 40% en beschermt het de privacy van gebruikers.
English
The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.
PDF190December 30, 2025