ChatPaper.aiChatPaper

Rapport technique UI-Venus : Développement d'agents d'interface utilisateur hautes performances avec RFT

UI-Venus Technical Report: Building High-performance UI Agents with RFT

August 14, 2025
papers.authors: Zhangxuan Gu, Zhengwen Zeng, Zhenyu Xu, Xingran Zhou, Shuheng Shen, Yunfei Liu, Beitong Zhou, Changhua Meng, Tianyu Xia, Weizhi Chen, Yue Wen, Jingya Dou, Fei Tang, Jinzhen Lin, Yulin Liu, Zhenlin Guo, Yichen Gong, Heng Jia, Changlong Gao, Yuan Guo, Yong Deng, Zhenyu Guo, Liang Chen, Weiqiang Wang
cs.AI

papers.abstract

Nous présentons UI-Venus, un agent d'interface utilisateur natif qui ne prend que des captures d'écran en entrée, basé sur un modèle de langage multimodal de grande taille. UI-Venus atteint des performances de pointe (SOTA) à la fois pour les tâches de localisation et de navigation dans les interfaces utilisateurs, en utilisant seulement plusieurs centaines de milliers d'échantillons d'entraînement de haute qualité grâce à un réglage fin par renforcement (RFT) basé sur Qwen2.5-VL. Plus précisément, les variantes 7B et 72B de UI-Venus obtiennent respectivement 94,1 % / 50,8 % et 95,3 % / 61,9 % sur les benchmarks standard de localisation, à savoir Screenspot-V2 / Pro, surpassant les précédents modèles de référence SOTA, y compris l'open-source GTA1 et le closed-source UI-TARS-1.5. Pour démontrer la capacité de synthèse et de planification de UI-Venus, nous l'évaluons également sur AndroidWorld, une arène de navigation en ligne dans les interfaces utilisateurs, où nos variantes 7B et 72B atteignent des taux de réussite de 49,1 % et 65,9 %, surpassant également les modèles existants. Pour y parvenir, nous introduisons des fonctions de récompense soigneusement conçues pour les tâches de localisation et de navigation dans les interfaces utilisateurs, ainsi que des stratégies efficaces de nettoyage des données correspondantes. Pour améliorer davantage les performances de navigation, nous proposons l'alignement auto-évolutif de l'historique des trajectoires et l'amélioration des actions rares, qui affinent les traces de raisonnement historiques et équilibrent la distribution des actions rares mais critiques, conduisant à une planification plus cohérente et à une meilleure généralisation dans les tâches complexes d'interfaces utilisateurs. Nos contributions incluent la publication d'agents d'interface utilisateur open-source SOTA, des protocoles complets de nettoyage des données et un nouveau cadre auto-évolutif pour améliorer les performances de navigation, encourageant ainsi la recherche et le développement dans la communauté. Le code est disponible à l'adresse https://github.com/antgroup/UI-Venus.
English
We present UI-Venus, a native UI agent that takes only screenshots as input based on a multimodal large language model. UI-Venus achieves SOTA performance on both UI grounding and navigation tasks using only several hundred thousand high-quality training samples through reinforcement finetune (RFT) based on Qwen2.5-VL. Specifically, the 7B and 72B variants of UI-Venus obtain 94.1% / 50.8% and 95.3% / 61.9% on the standard grounding benchmarks, i.e., Screenspot-V2 / Pro, surpassing the previous SOTA baselines including open-source GTA1 and closed-source UI-TARS-1.5.To show UI-Venus's summary and planing ability, we also evaluate it on the AndroidWorld, an online UI navigation arena, on which our 7B and 72B variants achieve 49.1% and 65.9% success rate, also beating existing models.To achieve this, we introduce carefully designed reward functions for both UI grounding and navigation tasks and corresponding efficient data cleaning strategies.To further boost navigation performance, we propose Self-Evolving Trajectory History Alignment \& Sparse Action Enhancement that refine historical reasoning traces and balances the distribution of sparse but critical actions, leading to more coherent planning and better generalization in complex UI tasks. Our contributions include the publish of SOTA open-source UI agents, comprehensive data cleaning protocols and a novel self-evolving framework for improving navigation performance, which encourage further research and development in the community. Code is available at https://github.com/antgroup/UI-Venus.
PDF151August 15, 2025