UItron: Grundlegender GUI-Agent mit fortgeschrittener Wahrnehmung und Planung
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
papers.authors: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
papers.abstract
Der GUI-Agent zielt darauf ab, automatisierte Operationen auf Mobilgeräten und PCs zu ermöglichen, was eine wichtige Aufgabe auf dem Weg zur Erreichung einer allgemeinen künstlichen Intelligenz darstellt. Die rasante Entwicklung von VLMs (Vision-Language Models) beschleunigt die Entwicklung von GUI-Agenten aufgrund ihrer leistungsstarken Fähigkeiten in der visuellen Wahrnehmung und Aufgabenplanung. Dennoch bleibt der Aufbau eines GUI-Agenten eine herausfordernde Aufgabe, was auf den Mangel an Betriebstrajektorien, die Verfügbarkeit interaktiver Infrastruktur und die begrenzten Anfangsfähigkeiten von Basismodellen zurückzuführen ist. In dieser Arbeit stellen wir UItron vor, ein Open-Source-Basismodell für automatische GUI-Agenten, das fortschrittliche Fähigkeiten in der GUI-Wahrnehmung, -Verankerung und -Planung bietet. UItron unterstreicht die Notwendigkeit systematischer Datenverarbeitung und interaktiver Infrastruktur als grundlegende Komponenten für die Weiterentwicklung von GUI-Agenten. Es untersucht nicht nur systematisch eine Reihe von Datenverarbeitungsstrategien, um die Trainingseffekte zu verbessern, sondern schafft auch eine interaktive Umgebung, die sowohl Mobilgeräte als auch PCs verbindet. Im Training verwendet UItron überwachtes Feinabstimmen für Wahrnehmungs- und Planungsaufgaben in verschiedenen GUI-Szenarien und entwickelt anschließend ein Curriculum Reinforcement Learning Framework, um komplexe Schlussfolgerungen und Explorationen in Online-Umgebungen zu ermöglichen. Als Ergebnis erzielt UItron überragende Leistungen in Benchmarks für GUI-Wahrnehmung, -Verankerung und -Planung. Insbesondere hebt UItron die Interaktionskompetenz mit erstklassigen chinesischen Mobil-Apps hervor, da wir festgestellt haben, dass selbst in modernsten Lösungen allgemeine Fähigkeiten für Chinesisch fehlen. Zu diesem Zweck sammeln wir manuell über eine Million Schritte von Betriebstrajektorien in den 100 beliebtesten Apps und bauen Offline- und Online-Agentenbewertungsumgebungen auf. Experimentelle Ergebnisse zeigen, dass UItron in chinesischen App-Szenarien erhebliche Fortschritte erzielt und GUI-Agenten einen Schritt näher an die reale Anwendung bringt.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.