Relatório Técnico do UI-Venus-1.5

Resumo

Os agentes de GUI emergiram como um paradigma poderoso para automatizar interações em ambientes digitais, mas alcançar ampla generalidade e desempenho de tarefa consistentemente forte permanece um desafio. Neste relatório, apresentamos o UI-Venus-1.5, um Agente de GUI unificado e de ponta a ponta projetado para aplicações robustas do mundo real. A família de modelos proposta compreende duas variantes densas (2B e 8B) e uma variante de mistura de especialistas (30B-A3B) para atender a vários cenários de aplicação a jusante. Em comparação com nossa versão anterior, o UI-Venus-1.5 introduz três avanços técnicos principais: (1) uma etapa abrangente de Mid-Training utilizando 10 bilhões de tokens em mais de 30 conjuntos de dados para estabelecer semântica fundamental de GUI; (2) Aprendizado por Reforço Online com rollouts de trajetória completa, alinhando os objetivos de treinamento com a navegação dinâmica de longo horizonte em ambientes de grande escala; e (3) um único Agente de GUI unificado construído via Fusão de Modelos, que sintetiza modelos específicos de domínio (grounding, web e móvel) em um checkpoint coeso. Avaliações extensivas demonstram que o UI-Venus-1.5 estabelece um novo estado da arte em benchmarks como ScreenSpot-Pro (69,6%), VenusBench-GD (75,0%) e AndroidWorld (77,6%), superando significativamente baselines fortes anteriores. Além disso, o UI-Venus-1.5 demonstra capacidades robustas de navegação em uma variedade de aplicativos móveis chineses, executando efetivamente as instruções do usuário em cenários do mundo real. Código: https://github.com/inclusionAI/UI-Venus; Modelo: https://huggingface.co/collections/inclusionAI/ui-venus

English

GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus