ChatPaper.aiChatPaper

UItron: Fundamentele GUI-agent met geavanceerde waarneming en planning

UItron: Foundational GUI Agent with Advanced Perception and Planning

August 29, 2025
Auteurs: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI

Samenvatting

De GUI-agent heeft als doel geautomatiseerde bewerkingen op mobiele/PC-apparaten mogelijk te maken, wat een belangrijke taak is bij het bereiken van kunstmatige algemene intelligentie. De snelle vooruitgang van VLMs (Vision-Language Models) versnelt de ontwikkeling van GUI-agents, dankzij hun krachtige mogelijkheden op het gebied van visueel begrip en taakplanning. Het bouwen van een GUI-agent blijft echter een uitdagende taak vanwege het gebrek aan operationele trajecten, de beschikbaarheid van interactieve infrastructuur en de beperkingen van de initiële mogelijkheden van foundation-modellen. In dit werk introduceren we UItron, een open-source foundation-model voor automatische GUI-agents, met geavanceerde mogelijkheden voor GUI-waarneming, gronding en planning. UItron benadrukt de noodzaak van systematische data-engineering en interactieve infrastructuur als fundamentele componenten voor het bevorderen van de ontwikkeling van GUI-agents. Het bestudeert niet alleen systematisch een reeks data-engineeringstrategieën om de trainingseffecten te verbeteren, maar stelt ook een interactieve omgeving in die zowel mobiele als PC-apparaten verbindt. Tijdens de training past UItron supervised finetuning toe op waarnemings- en plannings taken in verschillende GUI-scenario's, en ontwikkelt vervolgens een curriculum reinforcement learning-framework om complex redeneren en exploratie voor online omgevingen mogelijk te maken. Als resultaat behaalt UItron superieure prestaties in benchmarks voor GUI-waarneming, gronding en planning. In het bijzonder benadrukt UItron de interactievaardigheid met toonaangevende Chinese mobiele apps, aangezien we een algemeen gebrek aan Chinese mogelijkheden constateerden, zelfs in state-of-the-art oplossingen. Hiertoe verzamelen we handmatig meer dan een miljoen stappen aan operationele trajecten over de top 100 meest populaire apps, en bouwen we offline en online agent-evaluatieomgevingen. Experimentele resultaten tonen aan dat UItron aanzienlijke vooruitgang boekt in Chinese app-scenario's, waardoor GUI-agents een stap dichter bij real-world toepassingen komen.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is an important task toward achieving artificial general intelligence. The rapid advancement of VLMs accelerates the development of GUI agents, owing to their powerful capabilities in visual understanding and task planning. However, building a GUI agent remains a challenging task due to the scarcity of operation trajectories, the availability of interactive infrastructure, and the limitation of initial capabilities in foundation models. In this work, we introduce UItron, an open-source foundational model for automatic GUI agents, featuring advanced GUI perception, grounding, and planning capabilities. UItron highlights the necessity of systemic data engineering and interactive infrastructure as foundational components for advancing GUI agent development. It not only systematically studies a series of data engineering strategies to enhance training effects, but also establishes an interactive environment connecting both Mobile and PC devices. In training, UItron adopts supervised finetuning over perception and planning tasks in various GUI scenarios, and then develop a curriculum reinforcement learning framework to enable complex reasoning and exploration for online environments. As a result, UItron achieves superior performance in benchmarks of GUI perception, grounding, and planning. In particular, UItron highlights the interaction proficiency with top-tier Chinese mobile APPs, as we identified a general lack of Chinese capabilities even in state-of-the-art solutions. To this end, we manually collect over one million steps of operation trajectories across the top 100 most popular apps, and build the offline and online agent evaluation environments. Experimental results demonstrate that UItron achieves significant progress in Chinese app scenarios, propelling GUI agents one step closer to real-world application.
PDF122September 1, 2025