ChatPaper.aiChatPaper

UI-Venus-1.5 Technisch Rapport

UI-Venus-1.5 Technical Report

February 9, 2026
Auteurs: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI

Samenvatting

GUI-agents zijn een krachtig paradigma geworden voor het automatiseren van interacties in digitale omgevingen, maar het bereiken van zowel brede generaliteit als consistente sterke taakprestaties blijft een uitdaging. In dit rapport presenteren we UI-Venus-1.5, een uniforme, end-to-end GUI-agent die is ontworpen voor robuuste toepassingen in de praktijk. De voorgestelde modellenfamilie bestaat uit twee *dense* varianten (2B en 8B) en één *mixture-of-experts* variant (30B-A3B) om aan verschillende downstream-toepassingsscenario's te voldoen. Vergeleken met onze vorige versie introduceert UI-Venus-1.5 drie belangrijke technische verbeteringen: (1) een uitgebreide *Mid-Training*-fase met gebruikmaking van 10 miljard tokens uit meer dan 30 datasets om een fundamentele GUI-semantiek te vestigen; (2) *Online Reinforcement Learning* met volledige traject-uitvoeringen, waardoor de trainingsdoelen worden afgestemd op navigatie op lange termijn in dynamische, grootschalige omgevingen; en (3) een enkele uniforme GUI-agent, geconstrueerd via *Model Merging*, die domeinspecifieke modellen (*grounding*, web en mobiel) synthetiseert tot één samenhangend checkpoint. Uitgebreide evaluaties tonen aan dat UI-Venus-1.5 nieuwe state-of-the-art prestaties vestigt op benchmarks zoals ScreenSpot-Pro (69,6%), VenusBench-GD (75,0%) en AndroidWorld (77,6%), en daarmee eerdere sterke baselines significant overtreft. Bovendien toont UI-Venus-1.5 robuuste navigatiecapaciteiten in diverse Chinese mobiele apps, waarbij gebruikersinstructies effectief worden uitgevoerd in realistische scenario's. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
PDF1564March 19, 2026