Mobile-Agent-v3.5: Fundamentele GUI-agents voor meerdere platformen

Samenvatting

Het artikel introduceert GUI-Owl-1.5, het nieuwste native GUI-agentmodel dat instructie/denk-varianten biedt in meerdere groottes (2B/4B/8B/32B/235B) en een reeks platforms ondersteunt (desktop, mobiel, browser en meer) om cloud-edge samenwerking en real-time interactie mogelijk te maken. GUI-Owl-1.5 behaalt state-of-the-art resultaten op meer dan 20 GUI-benchmarks voor open-source modellen: (1) voor GUI-automatiseringstaken behaalt het 56,5 op OSWorld, 71,6 op AndroidWorld en 48,4 op WebArena; (2) voor groundingtaken behaalt het 80,3 op ScreenSpotPro; (3) voor tool-aanroepingstaken behaalt het 47,6 op OSWorld-MCP en 46,8 op MobileWorld; (4) voor geheugen- en kennistaken behaalt het 75,5 op GUI-Knowledge Bench. GUI-Owl-1.5 bevat verschillende belangrijke innovaties: (1) Hybride Data Flywheel: we bouwen de datapijplijn voor UI-begrip en trajectgeneratie op basis van een combinatie van gesimuleerde omgevingen en cloudgebaseerde sandbox-omgevingen om de efficiëntie en kwaliteit van gegevensverzameling te verbeteren. (2) Uniforme Verbetering van Agentcapaciteiten: we gebruiken een uniforme thought-synthesis pijplijn om de redeneercapaciteiten van het model te versterken, met bijzondere aandacht voor het verbeteren van cruciale agentvaardigheden, waaronder Tool/MCP-gebruik, geheugen en multi-agent aanpassing; (3) Multi-platform Omgeving RL Scaling: We introduceren een nieuwe omgeving RL-algoritme, MRPO, om de uitdagingen van multi-platform conflicten en de lage trainings efficiëntie van long-horizon taken aan te pakken. De GUI-Owl-1.5-modellen zijn open source, en een online cloud-sandbox demo is beschikbaar op https://github.com/X-PLUG/MobileAgent.

English

The paper introduces GUI-Owl-1.5, the latest native GUI agent model that features instruct/thinking variants in multiple sizes (2B/4B/8B/32B/235B) and supports a range of platforms (desktop, mobile, browser, and more) to enable cloud-edge collaboration and real-time interaction. GUI-Owl-1.5 achieves state-of-the-art results on more than 20+ GUI benchmarks on open-source models: (1) on GUI automation tasks, it obtains 56.5 on OSWorld, 71.6 on AndroidWorld, and 48.4 on WebArena; (2) on grounding tasks, it obtains 80.3 on ScreenSpotPro; (3) on tool-calling tasks, it obtains 47.6 on OSWorld-MCP, and 46.8 on MobileWorld; (4) on memory and knowledge tasks, it obtains 75.5 on GUI-Knowledge Bench. GUI-Owl-1.5 incorporates several key innovations: (1) Hybird Data Flywheel: we construct the data pipeline for UI understanding and trajectory generation based on a combination of simulated environments and cloud-based sandbox environments, in order to improve the efficiency and quality of data collection. (2) Unified Enhancement of Agent Capabilities: we use a unified thought-synthesis pipeline to enhance the model's reasoning capabilities, while placing particular emphasis on improving key agent abilities, including Tool/MCP use, memory and multi-agent adaptation; (3) Multi-platform Environment RL Scaling: We propose a new environment RL algorithm, MRPO, to address the challenges of multi-platform conflicts and the low training efficiency of long-horizon tasks. The GUI-Owl-1.5 models are open-sourced, and an online cloud-sandbox demo is available at https://github.com/X-PLUG/MobileAgent.

Mobile-Agent-v3.5: Fundamentele GUI-agents voor meerdere platformen

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Samenvatting

Support