ChatPaper.aiChatPaper

Rapport Technique UI-Venus-1.5

UI-Venus-1.5 Technical Report

February 9, 2026
papers.authors: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI

papers.abstract

Les agents d'interface graphique sont apparus comme un paradigme puissant pour automatiser les interactions dans les environnements numériques, mais atteindre à la fois une large généralité et des performances robustes et constantes reste un défi. Dans ce rapport, nous présentons UI-Venus-1.5, un Agent d'Interface Graphique unifié et de bout en bout, conçu pour des applications robustes dans le monde réel. La famille de modèles proposée comprend deux variantes denses (2B et 8B) et une variante à mixture d'experts (30B-A3B) pour répondre à divers scénarios d'application en aval. Comparée à notre version précédente, UI-Venus-1.5 introduit trois avancées techniques majeures : (1) une phase complète de Mid-Training exploitant 10 milliards de tokens sur plus de 30 jeux de données pour établir des sémantiques fondamentales des IGU ; (2) un Apprentissage par Renforcement en ligne avec des déploiements de trajectoires complètes, alignant les objectifs d'entraînement sur la navigation dynamique à long terme dans des environnements à grande échelle ; et (3) un Agent d'Interface Graphique unique et unifié construit via une Fusion de Modèles, qui synthétise des modèles spécialisés par domaine (ancrage, web et mobile) en un point de contrôle cohésif. Des évaluations approfondies démontrent qu'UI-Venus-1.5 établit de nouvelles performances de pointe sur des benchmarks tels que ScreenSpot-Pro (69,6 %), VenusBench-GD (75,0 %) et AndroidWorld (77,6 %), surpassant significativement les précédents modèles de référence solides. De plus, UI-Venus-1.5 démontre des capacités de navigation robustes sur une variété d'applications mobiles chinoises, exécutant efficacement les instructions utilisateur dans des scénarios réels. Code : https://github.com/inclusionAI/UI-Venus ; Modèle : https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
PDF1432February 12, 2026