UItron: Agente GUI Fondamentale con Percezione Avanzata e Pianificazione
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
Autori: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
Abstract
L'agente GUI mira a consentire operazioni automatizzate su dispositivi mobili e PC, un compito cruciale per il raggiungimento dell'intelligenza artificiale generale. Il rapido progresso dei modelli di linguaggio visivo (VLMs) accelera lo sviluppo degli agenti GUI, grazie alle loro potenti capacità di comprensione visiva e pianificazione delle attività. Tuttavia, costruire un agente GUI rimane un compito impegnativo a causa della scarsità di traiettorie operative, della disponibilità di infrastrutture interattive e delle limitazioni iniziali dei modelli di base. In questo lavoro, presentiamo UItron, un modello di base open-source per agenti GUI automatici, dotato di avanzate capacità di percezione, ancoraggio e pianificazione delle interfacce grafiche. UItron sottolinea la necessità di un'ingegneria dei dati sistematica e di infrastrutture interattive come componenti fondamentali per lo sviluppo degli agenti GUI. Non solo studia sistematicamente una serie di strategie di ingegneria dei dati per migliorare gli effetti dell'addestramento, ma stabilisce anche un ambiente interattivo che collega sia dispositivi mobili che PC. Durante l'addestramento, UItron adotta un fine-tuning supervisionato su compiti di percezione e pianificazione in vari scenari GUI, per poi sviluppare un framework di apprendimento per rinforzo curriculare per abilitare ragionamenti complessi e esplorazioni in ambienti online. Di conseguenza, UItron raggiunge prestazioni superiori nei benchmark di percezione, ancoraggio e pianificazione delle GUI. In particolare, UItron evidenzia la competenza interattiva con le migliori app mobili cinesi, poiché abbiamo identificato una generale mancanza di capacità in cinese anche nelle soluzioni più avanzate. A tal fine, raccogliamo manualmente oltre un milione di passaggi di traiettorie operative tra le 100 app più popolari e costruiamo ambienti di valutazione offline e online per gli agenti. I risultati sperimentali dimostrano che UItron compie progressi significativi negli scenari di app cinesi, avvicinando ulteriormente gli agenti GUI all'applicazione nel mondo reale.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.