ChatPaper.aiChatPaper

UI-Venus-1.5 技術報告書

UI-Venus-1.5 Technical Report

February 9, 2026
著者: Veuns-Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang
cs.AI

要旨

GUIエージェントはデジタル環境における操作自動化の強力なパラダイムとして登場しましたが、広範な汎用性と一貫して強力なタスク性能の両立は依然として課題です。本報告では、堅牢な実世界アプリケーション向けに設計された統一的なエンドツーエンドGUIエージェントであるUI-Venus-1.5を提案します。提案するモデルファミリーは、様々な下流アプリケーションシナリオに対応するため、2つの高密度バリアント(2Bおよび8B)と1つの混合専門家バリアント(30B-A3B)で構成されています。前バージョンと比較して、UI-Venus-1.5は以下の3つの主要な技術的進歩を導入しています:(1) 30以上のデータセットにわたる100億トークンを活用した包括的な中間訓練段階により、基礎的なGUIセマンティクスを確立;(2) 完全軌道展開によるオンライン強化学習により、大規模環境における長期的で動的なナビゲーションと訓練目標を整合;(3) モデルマージングにより構築された単一の統一GUIエージェント。これは、ドメイン特化モデル(グラウンディング、Web、モバイル)を一つの統合されたチェックポイントに統合します。大規模な評価により、UI-Venus-1.5がScreenSpot-Pro(69.6%)、VenusBench-GD(75.0%)、AndroidWorld(77.6%)などのベンチマークで新たなstate-of-the-art性能を確立し、従来の強力なベースラインを大幅に上回ることが実証されました。さらに、UI-Venus-1.5は様々な中国モバイルアプリにわたる堅牢なナビゲーション能力を示し、実世界シナリオでユーザー指示を効果的に実行します。コード:https://github.com/inclusionAI/UI-Venus; モデル:https://huggingface.co/collections/inclusionAI/ui-venus
English
GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus
PDF1432February 12, 2026