MAI-UI Technischer Bericht: Real-World-zentrische Foundation-GUI-Agenten
MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
December 26, 2025
papers.authors: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi
cs.AI
papers.abstract
Die Entwicklung von GUI-Agenten könnte die nächste Generation der Mensch-Computer-Interaktion revolutionieren. Angetrieben von dieser Vision präsentieren wir MAI-UI, eine Familie von Foundation-GUI-Agenten, die das gesamte Größenspektrum abdeckt, einschließlich der Varianten mit 2B, 8B, 32B und 235B-A22B Parametern. Wir identifizieren vier zentrale Herausforderungen für den praktischen Einsatz: das Fehlen einer nativen Agent-Nutzer-Interaktion, die Grenzen eines reinen UI-Betriebs, das Fehlen einer praktischen Einsatzarchitektur und die Anfälligkeit in dynamischen Umgebungen. MAI-UI adressiert diese Probleme mit einer einheitlichen Methodik: einer sich selbst entwickelnden Datenpipeline, die die Navigationsdaten um Nutzerinteraktionen und MCP-Tool-Aufrufe erweitert; einem nativen Geräte-Cloud-Kollaborationssystem, das die Ausführung anhand des Aufgabenstatus steuert; und einem Online-Reinforcement-Learning-Framework mit fortschrittlichen Optimierungen zur Skalierung paralleler Umgebungen und Kontextlängen. MAI-UI setzt neue Maßstäbe in den Bereichen GUI-Grounding und mobile Navigation. In Grounding-Benchmarks erreicht es 73,5 % auf ScreenSpot-Pro, 91,3 % auf MMBench GUI L2, 70,9 % auf OSWorld-G und 49,2 % auf UI-Vision und übertrifft dabei Gemini-3-Pro und Seed1.8 auf ScreenSpot-Pro. Bei der mobilen GUI-Navigation erzielt es mit 76,7 % auf AndroidWorld einen neuen State-of-the-Art-Wert und übertrifft UI-Tars-2, Gemini-2.5-Pro und Seed1.8. Auf MobileWorld erzielt MAI-UI eine Erfolgsquote von 41,7 % und übertrifft damit end-to-end-GUI-Modelle signifikant, während es mit agentenbasierten Frameworks auf Gemini-3-Pro-Basis konkurrieren kann. Unsere Online-Reinforcement-Learning-Experimente zeigen signifikante Verbesserungen durch die Skalierung paralleler Umgebungen von 32 auf 512 (+5,2 Punkte) und die Erhöhung des Umwelt-Schritt-Budgets von 15 auf 50 (+4,3 Punkte). Schließlich verbessert das native Geräte-Cloud-Kollaborationssystem die On-Device-Leistung um 33 %, reduziert Cloud-Modellaufrufe um über 40 % und wahrt die Privatsphäre der Nutzer.
English
The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.