ChatPaper.aiChatPaper

MAI-UI技術報告書:実世界中心の基盤GUIエージェント

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

December 26, 2025
著者: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi
cs.AI

要旨

GUIエージェントの開発は、次世代の人間とコンピュータのインタラクションに革命をもたらす可能性を秘めています。このビジョンに動かされ、我々はMAI-UIを提案します。これは2B、8B、32B、235B-A22Bといったサイズのフルスペクトラムをカバーする基盤GUIエージェントファミリーです。我々は、実用的な展開における4つの主要な課題を特定しました:ネイティブなエージェントとユーザーのインタラクションの欠如、UIのみによる操作の限界、実用的な展開アーキテクチャの不在、そして動的環境における脆さです。MAI-UIは、統一された方法論でこれらの課題に取り組みます:ナビゲーションデータをユーザーインタラクションとMCPツール呼び出しを含むように拡張する自己進化型データパイプライン、タスク状態によって実行をルーティングするネイティブなデバイス-クラウド協調システム、並列環境とコンテキスト長をスケールさせる高度な最適化を備えたオンライン強化学習フレームワークです。MAI-UIは、GUIグラウンディングとモバイルナビゲーションの両方で新たな最高性能を確立しました。グラウンディングベンチマークでは、ScreenSpot-Proで73.5%、MMBench GUI L2で91.3%、OSWorld-Gで70.9%、UI-Visionで49.2%を達成し、ScreenSpot-ProにおいてGemini-3-ProおよびSeed1.8を上回りました。モバイルGUIナビゲーションでは、AndroidWorldで76.7%という新たなSOTAを樹立し、UI-Tars-2、Gemini-2.5-Pro、Seed1.8を凌駕しました。MobileWorldでは、MAI-UIは41.7%の成功率を記録し、エンドツーエンドGUIモデルを大幅に上回り、Gemini-3-Proベースのエージェントフレームワークと競合する性能を示しました。我々のオンライン強化学習実験では、並列環境を32から512にスケーリングすることで+5.2ポイント、環境ステップのバジェットを15から50に増加させることで+4.3ポイントの顕著な性能向上が確認されました。最後に、ネイティブなデバイス-クラウド協調システムは、オンデバイス性能を33%向上させ、クラウドモデルの呼び出しを40%以上削減し、ユーザーのプライバシーを保護します。
English
The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.
PDF190December 30, 2025