UI-Venus-1.5 Technisch Rapport

Samenvatting

GUI-agents zijn een krachtig paradigma geworden voor het automatiseren van interacties in digitale omgevingen, maar het bereiken van zowel brede generaliteit als consistente sterke taakprestaties blijft een uitdaging. In dit rapport presenteren we UI-Venus-1.5, een uniforme, end-to-end GUI-agent die is ontworpen voor robuuste toepassingen in de praktijk. De voorgestelde modellenfamilie bestaat uit twee *dense* varianten (2B en 8B) en één *mixture-of-experts* variant (30B-A3B) om aan verschillende downstream-toepassingsscenario's te voldoen. Vergeleken met onze vorige versie introduceert UI-Venus-1.5 drie belangrijke technische verbeteringen: (1) een uitgebreide *Mid-Training*-fase met gebruikmaking van 10 miljard tokens uit meer dan 30 datasets om een fundamentele GUI-semantiek te vestigen; (2) *Online Reinforcement Learning* met volledige traject-uitvoeringen, waardoor de trainingsdoelen worden afgestemd op navigatie op lange termijn in dynamische, grootschalige omgevingen; en (3) een enkele uniforme GUI-agent, geconstrueerd via *Model Merging*, die domeinspecifieke modellen (*grounding*, web en mobiel) synthetiseert tot één samenhangend checkpoint. Uitgebreide evaluaties tonen aan dat UI-Venus-1.5 nieuwe state-of-the-art prestaties vestigt op benchmarks zoals ScreenSpot-Pro (69,6%), VenusBench-GD (75,0%) en AndroidWorld (77,6%), en daarmee eerdere sterke baselines significant overtreft. Bovendien toont UI-Venus-1.5 robuuste navigatiecapaciteiten in diverse Chinese mobiele apps, waarbij gebruikersinstructies effectief worden uitgevoerd in realistische scenario's. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus

English

GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus

UI-Venus-1.5 Technisch Rapport

UI-Venus-1.5 Technical Report

Samenvatting

Support