Technischer Bericht zu UI-Venus-1.5
UI-Venus-1.5 Technical Report
February 9, 2026
papers.authors: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI
papers.abstract
GUI-Agenten haben sich als leistungsstarkes Paradigma zur Automatisierung von Interaktionen in digitalen Umgebungen etabliert, doch die gleichzeitige Erzielung breiter Allgemeingültigkeit und konsistent starker Aufgabenleistung bleibt eine Herausforderung. In diesem Bericht stellen wir UI-Venus-1.5 vor, einen vereinheitlichten, end-to-end GUI-Agenten, der für robuste Anwendungen in der realen Welt konzipiert ist. Die vorgeschlagene Modellfamilie umfasst zwei Dense-Varianten (2B und 8B) und eine Mixture-of-Experts-Variante (30B-A3B), um verschiedenen nachgelagerten Anwendungsszenarien gerecht zu werden. Im Vergleich zu unserer vorherigen Version führt UI-Venus-1.5 drei wichtige technische Fortschritte ein: (1) eine umfassende Mid-Training-Phase, die 10 Milliarden Tokens über 30+ Datensätze nutzt, um grundlegende GUI-Semantik zu etablieren; (2) Online Reinforcement Learning mit Full-Trajectory Rollouts, das die Trainingsziele mit langfristiger, dynamischer Navigation in großskaligen Umgebungen in Einklang bringt; und (3) einen einzigen vereinheitlichten GUI-Agenten, der durch Model Merging konstruiert wird und domänenspezifische Modelle (Grounding, Web und Mobile) zu einem kohäsiven Checkpoint synthetisiert. Umfangreiche Evaluationen zeigen, dass UI-Venus-1.5 neue State-of-the-Art-Leistungen auf Benchmarks wie ScreenSpot-Pro (69,6 %), VenusBench-GD (75,0 %) und AndroidWorld (77,6 %) erzielt und damit frühere starke Baselines deutlich übertrifft. Zudem demonstriert UI-Venus-1.5 robuste Navigationsfähigkeiten über eine Vielzahl chinesischer Mobile Apps hinweg und führt Benutzeranweisungen in realen Szenarien effektiv aus. Code: https://github.com/inclusionAI/UI-Venus; Modell: https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus