Informe Técnico de UI-Venus-1.5
UI-Venus-1.5 Technical Report
February 9, 2026
Autores: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI
Resumen
Los agentes de interfaz gráfica han surgido como un paradigma poderoso para automatizar interacciones en entornos digitales, aunque lograr simultáneamente una amplia generalidad y un rendimiento de tareas consistentemente sólido sigue siendo un desafío. En este informe presentamos UI-Venus-1.5, un agente de interfaz gráfica unificado de extremo a extremo diseñado para aplicaciones robustas en entornos reales. La familia de modelos propuesta comprende dos variantes densas (2B y 8B) y una variante de mezcla de expertos (30B-A3B) para satisfacer diversos escenarios de aplicación posteriores. En comparación con nuestra versión anterior, UI-Venus-1.5 introduce tres avances técnicos clave: (1) una etapa integral de entrenamiento intermedio que aprovecha 10 mil millones de tokens en más de 30 conjuntos de datos para establecer semántica fundamental de interfaz gráfica; (2) Aprendizaje por Refuerzo en línea con desarrollos de trayectoria completa, alineando los objetivos de entrenamiento con la navegación dinámica de largo horizonte en entornos a gran escala; y (3) un agente de interfaz gráfica unificado construido mediante Fusión de Modelos, que sintetiza modelos específicos de dominio (base, web y móvil) en un punto de control cohesivo. Evaluaciones exhaustivas demuestran que UI-Venus-1.5 establece un nuevo estado del arte en benchmarks como ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%) y AndroidWorld (77.6%), superando significativamente líneas base anteriores sólidas. Adicionalmente, UI-Venus-1.5 demuestra capacidades robustas de navegación en diversas aplicaciones móviles chinas, ejecutando efectivamente instrucciones de usuario en escenarios del mundo real. Código: https://github.com/inclusionAI/UI-Venus; Modelo: https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus