Rapporto Tecnico UI-Venus: Costruzione di Agenti UI ad Alte Prestazioni con RFT

Abstract

Presentiamo UI-Venus, un agente UI nativo che utilizza esclusivamente screenshot come input, basato su un modello linguistico multimodale di grandi dimensioni. UI-Venus raggiunge prestazioni all'avanguardia (SOTA) sia nei compiti di grounding che di navigazione UI, utilizzando solo diverse centinaia di migliaia di campioni di addestramento di alta qualità attraverso un fine-tuning basato su rinforzo (RFT) su Qwen2.5-VL. Nello specifico, le varianti da 7B e 72B di UI-Venus ottengono rispettivamente il 94,1% / 50,8% e il 95,3% / 61,9% sui benchmark standard di grounding, ovvero Screenspot-V2 / Pro, superando i precedenti benchmark SOTA, inclusi GTA1 open-source e UI-TARS-1.5 closed-source. Per dimostrare le capacità di riepilogo e pianificazione di UI-Venus, lo abbiamo valutato anche su AndroidWorld, un'arena di navigazione UI online, dove le nostre varianti da 7B e 72B raggiungono rispettivamente un tasso di successo del 49,1% e del 65,9%, battendo anche i modelli esistenti. Per ottenere questi risultati, abbiamo introdotto funzioni di ricompensa attentamente progettate per entrambi i compiti di grounding e navigazione UI, insieme a corrispondenti strategie efficienti di pulizia dei dati. Per migliorare ulteriormente le prestazioni di navigazione, proponiamo il Self-Evolving Trajectory History Alignment & Sparse Action Enhancement, che affina le tracce di ragionamento storico e bilancia la distribuzione di azioni sparse ma critiche, portando a una pianificazione più coerente e a una migliore generalizzazione nei compiti UI complessi. I nostri contributi includono la pubblicazione di agenti UI open-source SOTA, protocolli completi di pulizia dei dati e un nuovo framework self-evolving per migliorare le prestazioni di navigazione, che incoraggiano ulteriori ricerche e sviluppi nella comunità. Il codice è disponibile all'indirizzo https://github.com/antgroup/UI-Venus.

English

We present UI-Venus, a native UI agent that takes only screenshots as input based on a multimodal large language model. UI-Venus achieves SOTA performance on both UI grounding and navigation tasks using only several hundred thousand high-quality training samples through reinforcement finetune (RFT) based on Qwen2.5-VL. Specifically, the 7B and 72B variants of UI-Venus obtain 94.1% / 50.8% and 95.3% / 61.9% on the standard grounding benchmarks, i.e., Screenspot-V2 / Pro, surpassing the previous SOTA baselines including open-source GTA1 and closed-source UI-TARS-1.5.To show UI-Venus's summary and planing ability, we also evaluate it on the AndroidWorld, an online UI navigation arena, on which our 7B and 72B variants achieve 49.1% and 65.9% success rate, also beating existing models.To achieve this, we introduce carefully designed reward functions for both UI grounding and navigation tasks and corresponding efficient data cleaning strategies.To further boost navigation performance, we propose Self-Evolving Trajectory History Alignment \& Sparse Action Enhancement that refine historical reasoning traces and balances the distribution of sparse but critical actions, leading to more coherent planning and better generalization in complex UI tasks. Our contributions include the publish of SOTA open-source UI agents, comprehensive data cleaning protocols and a novel self-evolving framework for improving navigation performance, which encourage further research and development in the community. Code is available at https://github.com/antgroup/UI-Venus.

Rapporto Tecnico UI-Venus: Costruzione di Agenti UI ad Alte Prestazioni con RFT

UI-Venus Technical Report: Building High-performance UI Agents with RFT

Abstract

Support