UItron : Agent d'interface graphique fondamental doté de capacités avancées de perception et de planification
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
papers.authors: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
papers.abstract
L'agent GUI vise à permettre des opérations automatisées sur les appareils mobiles et PC, ce qui constitue une tâche importante pour atteindre l'intelligence artificielle générale. Les avancées rapides des modèles de langage visuel (VLMs) accélèrent le développement des agents GUI, grâce à leurs puissantes capacités en compréhension visuelle et planification de tâches. Cependant, la création d'un agent GUI reste une tâche complexe en raison de la rareté des trajectoires d'opération, de la disponibilité des infrastructures interactives et des limitations initiales des modèles de base. Dans ce travail, nous présentons UItron, un modèle de base open-source pour les agents GUI automatiques, doté de capacités avancées en perception, ancrage et planification d'interfaces graphiques. UItron souligne la nécessité d'une ingénierie des données systémique et d'infrastructures interactives comme éléments fondamentaux pour faire progresser le développement des agents GUI. Il étudie systématiquement une série de stratégies d'ingénierie des données pour améliorer les effets d'entraînement, tout en établissant un environnement interactif connectant à la fois les appareils mobiles et PC. Pour l'entraînement, UItron adopte un ajustement supervisé pour les tâches de perception et de planification dans divers scénarios d'interfaces graphiques, puis développe un cadre d'apprentissage par renforcement curriculaire pour permettre un raisonnement complexe et une exploration dans des environnements en ligne. En conséquence, UItron obtient des performances supérieures dans les benchmarks de perception, ancrage et planification d'interfaces graphiques. En particulier, UItron met en avant une maîtrise de l'interaction avec les applications mobiles chinoises de premier plan, car nous avons identifié un manque général de capacités en chinois même dans les solutions les plus avancées. À cette fin, nous collectons manuellement plus d'un million d'étapes de trajectoires d'opération parmi les 100 applications les plus populaires, et construisons des environnements d'évaluation d'agents hors ligne et en ligne. Les résultats expérimentaux montrent qu'UItron réalise des progrès significatifs dans les scénarios d'applications chinoises, rapprochant ainsi les agents GUI d'une application réelle.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.