Технический отчет по UI-Venus-1.5
UI-Venus-1.5 Technical Report
February 9, 2026
Авторы: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI
Аннотация
GUI-агенты стали мощной парадигмой для автоматизации взаимодействий в цифровых средах, однако достижение как широкой универсальности, так и стабильно высоких результатов при выполнении задач остается сложной проблемой. В данном отчете мы представляем UI-Venus-1.5 — унифицированного сквозного GUI-агента, разработанного для надежных применений в реальных условиях. Предложенное семейство моделей включает две плотные версии (2B и 8B) и одну версию на основе смеси экспертов (30B-A3B) для удовлетворения потребностей различных сценариев применения. По сравнению с нашей предыдущей версией, UI-Venus-1.5 представляет три ключевых технических усовершенствования: (1) комплексный этап промежуточного обучения с использованием 10 миллиардов токенов из более чем 30 наборов данных для формирования базовой семантики GUI; (2) онлайн-обучение с подкреплением на полных траекториях, согласующее цели обучения с долгосрочной динамической навигацией в крупномасштабных средах; и (3) единый унифицированный GUI-агент, созданный посредством слияния моделей, который объединяет специализированные доменные модели (grounding, веб и мобильные) в единую согласованную точку контроля. Масштабные оценки демонстрируют, что UI-Venus-1.5 устанавливает новые рекорды производительности на таких бенчмарках, как ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%) и AndroidWorld (77.6%), значительно превосходя предыдущие сильные базовые модели. Кроме того, UI-Venus-1.5 демонстрирует надежные возможности навигации в различных китайских мобильных приложениях, эффективно выполняя пользовательские инструкции в реальных сценариях. Код: https://github.com/inclusionAI/UI-Venus; Модель: https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus