UI-TARS: Interazione automatizzata pionieristica con GUI tramite agenti nativi

Abstract

Questo articolo presenta UI-TARS, un modello di agente GUI nativo che percepisce esclusivamente le schermate come input e esegue interazioni simili a quelle umane (ad esempio, operazioni di tastiera e mouse). A differenza dei framework di agenti prevalenti che dipendono da modelli commerciali pesantemente avvolti (ad esempio, GPT-4o) con prompt e flussi di lavoro creati da esperti, UI-TARS è un modello end-to-end che supera tali framework sofisticati. Gli esperimenti dimostrano le sue prestazioni superiori: UI-TARS raggiunge prestazioni di stato dell'arte in oltre 10 benchmark di agenti GUI che valutano percezione, grounding ed esecuzione di compiti GUI. In particolare, nel benchmark OSWorld, UI-TARS raggiunge punteggi di 24,6 con 50 passaggi e 22,7 con 15 passaggi, superando Claude (rispettivamente 22,0 e 14,9). In AndroidWorld, UI-TARS raggiunge 46,6, superando GPT-4o (34,5). UI-TARS incorpora diverse innovazioni chiave: (1) Percezione potenziata: sfruttando un dataset su larga scala di schermate GUI per una comprensione consapevole del contesto degli elementi dell'UI e per una descrizione precisa; (2) Modellazione dell'azione unificata, che standardizza le azioni in uno spazio unificato tra piattaforme e raggiunge un grounding e un'interazione precisi attraverso tracce d'azione su larga scala; (3) Ragionamento System-2, che incorpora un ragionamento deliberato nella presa di decisioni a più passaggi, coinvolgendo molteplici schemi di ragionamento come la decomposizione del compito, il pensiero riflessivo, il riconoscimento delle tappe, ecc.; (4) Addestramento iterativo con tracce online riflessive, che affronta il collo di bottiglia dei dati raccogliendo automaticamente, filtrando e raffinando riflessivamente nuove tracce d'interazione su centinaia di macchine virtuali. Attraverso l'addestramento iterativo e il tuning riflessivo, UI-TARS impara continuamente dai propri errori e si adatta a situazioni impreviste con minima intervento umano. Analizziamo anche il percorso evolutivo degli agenti GUI per guidare ulteriormente lo sviluppo di questo settore.

English

This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.

UI-TARS: Interazione automatizzata pionieristica con GUI tramite agenti nativi

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Abstract

Support