UItron: Fundamentele GUI-agent met geavanceerde waarneming en planning
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
Auteurs: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
Samenvatting
De GUI-agent heeft als doel geautomatiseerde bewerkingen op mobiele/PC-apparaten mogelijk te maken, wat een belangrijke taak is bij het bereiken van kunstmatige algemene intelligentie. De snelle vooruitgang van VLMs (Vision-Language Models) versnelt de ontwikkeling van GUI-agents, dankzij hun krachtige mogelijkheden op het gebied van visueel begrip en taakplanning. Het bouwen van een GUI-agent blijft echter een uitdagende taak vanwege het gebrek aan operationele trajecten, de beschikbaarheid van interactieve infrastructuur en de beperkingen van de initiële mogelijkheden van foundation-modellen. In dit werk introduceren we UItron, een open-source foundation-model voor automatische GUI-agents, met geavanceerde mogelijkheden voor GUI-waarneming, gronding en planning. UItron benadrukt de noodzaak van systematische data-engineering en interactieve infrastructuur als fundamentele componenten voor het bevorderen van de ontwikkeling van GUI-agents. Het bestudeert niet alleen systematisch een reeks data-engineeringstrategieën om de trainingseffecten te verbeteren, maar stelt ook een interactieve omgeving in die zowel mobiele als PC-apparaten verbindt. Tijdens de training past UItron supervised finetuning toe op waarnemings- en plannings taken in verschillende GUI-scenario's, en ontwikkelt vervolgens een curriculum reinforcement learning-framework om complex redeneren en exploratie voor online omgevingen mogelijk te maken. Als resultaat behaalt UItron superieure prestaties in benchmarks voor GUI-waarneming, gronding en planning. In het bijzonder benadrukt UItron de interactievaardigheid met toonaangevende Chinese mobiele apps, aangezien we een algemeen gebrek aan Chinese mogelijkheden constateerden, zelfs in state-of-the-art oplossingen. Hiertoe verzamelen we handmatig meer dan een miljoen stappen aan operationele trajecten over de top 100 meest populaire apps, en bouwen we offline en online agent-evaluatieomgevingen. Experimentele resultaten tonen aan dat UItron aanzienlijke vooruitgang boekt in Chinese app-scenario's, waardoor GUI-agents een stap dichter bij real-world toepassingen komen.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.