Технический отчет по UI-Venus-1.5

Аннотация

GUI-агенты стали мощной парадигмой для автоматизации взаимодействий в цифровых средах, однако достижение как широкой универсальности, так и стабильно высоких результатов при выполнении задач остается сложной проблемой. В данном отчете мы представляем UI-Venus-1.5 — унифицированного сквозного GUI-агента, разработанного для надежных применений в реальных условиях. Предложенное семейство моделей включает две плотные версии (2B и 8B) и одну версию на основе смеси экспертов (30B-A3B) для удовлетворения потребностей различных сценариев применения. По сравнению с нашей предыдущей версией, UI-Venus-1.5 представляет три ключевых технических усовершенствования: (1) комплексный этап промежуточного обучения с использованием 10 миллиардов токенов из более чем 30 наборов данных для формирования базовой семантики GUI; (2) онлайн-обучение с подкреплением на полных траекториях, согласующее цели обучения с долгосрочной динамической навигацией в крупномасштабных средах; и (3) единый унифицированный GUI-агент, созданный посредством слияния моделей, который объединяет специализированные доменные модели (grounding, веб и мобильные) в единую согласованную точку контроля. Масштабные оценки демонстрируют, что UI-Venus-1.5 устанавливает новые рекорды производительности на таких бенчмарках, как ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%) и AndroidWorld (77.6%), значительно превосходя предыдущие сильные базовые модели. Кроме того, UI-Venus-1.5 демонстрирует надежные возможности навигации в различных китайских мобильных приложениях, эффективно выполняя пользовательские инструкции в реальных сценариях. Код: https://github.com/inclusionAI/UI-Venus; Модель: https://huggingface.co/collections/inclusionAI/ui-venus

English

GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus

Технический отчет по UI-Venus-1.5

UI-Venus-1.5 Technical Report

Аннотация

Support