Relatório Técnico do UI-Venus-1.5
UI-Venus-1.5 Technical Report
February 9, 2026
Autores: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI
Resumo
Os agentes de GUI emergiram como um paradigma poderoso para automatizar interações em ambientes digitais, mas alcançar ampla generalidade e desempenho de tarefa consistentemente forte permanece um desafio. Neste relatório, apresentamos o UI-Venus-1.5, um Agente de GUI unificado e de ponta a ponta projetado para aplicações robustas do mundo real. A família de modelos proposta compreende duas variantes densas (2B e 8B) e uma variante de mistura de especialistas (30B-A3B) para atender a vários cenários de aplicação a jusante. Em comparação com nossa versão anterior, o UI-Venus-1.5 introduz três avanços técnicos principais: (1) uma etapa abrangente de Mid-Training utilizando 10 bilhões de tokens em mais de 30 conjuntos de dados para estabelecer semântica fundamental de GUI; (2) Aprendizado por Reforço Online com rollouts de trajetória completa, alinhando os objetivos de treinamento com a navegação dinâmica de longo horizonte em ambientes de grande escala; e (3) um único Agente de GUI unificado construído via Fusão de Modelos, que sintetiza modelos específicos de domínio (grounding, web e móvel) em um checkpoint coeso. Avaliações extensivas demonstram que o UI-Venus-1.5 estabelece um novo estado da arte em benchmarks como ScreenSpot-Pro (69,6%), VenusBench-GD (75,0%) e AndroidWorld (77,6%), superando significativamente baselines fortes anteriores. Além disso, o UI-Venus-1.5 demonstra capacidades robustas de navegação em uma variedade de aplicativos móveis chineses, executando efetivamente as instruções do usuário em cenários do mundo real. Código: https://github.com/inclusionAI/UI-Venus; Modelo: https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus