MAI-UI 기술 보고서: 현실 세계 중심 기반 GUI 에이전트
MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
December 26, 2025
저자: Hanzhang Zhou, Xu Zhang, Panrong Tong, Jianan Zhang, Liangyu Chen, Quyu Kong, Chenglin Cai, Chen Liu, Yue Wang, Jingren Zhou, Steven Hoi
cs.AI
초록
GUI 에이전트의 발전은 차세대 인간-컴퓨터 상호작용에 혁명을 일으킬 수 있습니다. 이러한 비전에 동기를 부여받아, 우리는 2B, 8B, 32B, 235B-A22B 변형을 포함한 전체 규모 스펙트럼을 아우르는 기초 GUI 에이전트 패밀리인 MAI-UI를 제시합니다. 우리는 실제 배포의 네 가지 주요 과제를 식별했습니다: 기본적인 에이전트-사용자 상호작용의 부재, UI 전용 운영의 한계, 실용적인 배포 아키텍처의 결여, 그리고 동적 환경에서의 취약성입니다. MAI-UI는 통합 방법론으로 이러한 문제들을 해결합니다: 사용자 상호작용과 MCP 도구 호출을 포함하도록 탐색 데이터를 확장하는 자체 진화 데이터 파이프라인, 작업 상태에 따라 실행을 라우팅하는 기본 디바이스-클라우드 협업 시스템, 그리고 병렬 환경과 컨텍스트 길이를 확장하기 위한 고급 최적화를 포함한 온라인 강화학습 프레임워크입니다. MAI-UI는 GUI 기반화(Grounding) 및 모바일 탐색 분야에서 새로운 최첨단 성능을 확립했습니다. 기반화 벤치마크에서는 ScreenSpot-Pro에서 73.5%, MMBench GUI L2에서 91.3%, OSWorld-G에서 70.9%, UI-Vision에서 49.2%를 달성하여 ScreenSpot-Pro에서 Gemini-3-Pro와 Seed1.8을 능가했습니다. 모바일 GUI 탐색에서는 AndroidWorld에서 76.7%의 새로운 SOTA를 세워 UI-Tars-2, Gemini-2.5-Pro, Seed1.8을 능가했습니다. MobileWorld에서 MAI-UI는 41.7%의 성공률을 얻어 종단간 GUI 모델을 크게 앞섰으며 Gemini-3-Pro 기반 에이전트 프레임워크와 경쟁력 있는 성능을 보였습니다. 우리의 온라인 강화학습 실험은 병렬 환경을 32개에서 512개로 확장(+5.2점)하고 환경 스텝 예산을 15에서 50으로 증가(+4.3점)시켰을 때 상당한 성능 향상을 보여주었습니다. 마지막으로, 기본 디바이스-클라우드 협업 시스템은 디바이스 성능을 33% 향상시키고, 클라우드 모델 호출을 40% 이상 줄이며, 사용자 프라이버시를 보호합니다.
English
The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.