ChatPaper.aiChatPaper

UI-Venus-1.5 기술 보고서

UI-Venus-1.5 Technical Report

February 9, 2026
저자: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI

초록

GUI 에이전트는 디지털 환경에서의 상호작용 자동화를 위한 강력한 패러다임으로 부상했으나, 광범위한 일반성과 일관되게 높은 작업 성능을 동시에 달성하는 것은 여전히 과제로 남아 있습니다. 본 보고서에서는 견고한 실전 응용을 위해 설계된 통합 엔드투엔드 GUI 에이전트인 UI-Venus-1.5를 소개합니다. 제안된 모델 패밀리는 다양한 다운스트림 응용 시나리오를 충족하기 위해 두 가지 Dense 변종(2B, 8B)과 하나의 Mixture-of-Experts 변종(30B-A3B)으로 구성됩니다. 이전 버전과 비교하여 UI-Venus-1.5는 세 가지 핵심 기술적 발전을 도입했습니다: (1) 30개 이상의 데이터셋에 걸쳐 100억 토큰을 활용한 포괄적인 중간 학습(Mid-Training) 단계를 통해 기초적인 GUI 의미론을 확립하고, (2) 전체 궤적 롤아웃을 통한 온라인 강화 학습으로 대규모 환경에서의 장기적, 동적 탐색에 학습 목표를 정렬하며, (3) 모델 병합(Model Merging)을 통해 도메인 특화 모델(그라운딩, 웹, 모바일)을 하나의 통합된 체크포인트로 합성하여 단일 통합 GUI 에이전트를 구축했습니다. 광범위한 평가 결과, UI-Venus-1.5는 ScreenSpot-Pro(69.6%), VenusBench-GD(75.0%), AndroidWorld(77.6%)와 같은 벤치마크에서 새로운 최첨단 성능을确立하며, 이전의 강력한 기준선들을 크게 능가하는 것으로 나타났습니다. 또한 UI-Venus-1.5는 다양한 중국 모바일 앱에서 견고한 탐색 능력을 보여주며, 실제 시나리오에서 사용자 지시를 효과적으로 실행합니다. 코드: https://github.com/inclusionAI/UI-Venus; 모델: https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
PDF1432February 12, 2026