UItron : Agent d'interface graphique fondamental doté de capacités avancées de perception et de planification

papers.abstract

L'agent GUI vise à permettre des opérations automatisées sur les appareils mobiles et PC, ce qui constitue une tâche importante pour atteindre l'intelligence artificielle générale. Les avancées rapides des modèles de langage visuel (VLMs) accélèrent le développement des agents GUI, grâce à leurs puissantes capacités en compréhension visuelle et planification de tâches. Cependant, la création d'un agent GUI reste une tâche complexe en raison de la rareté des trajectoires d'opération, de la disponibilité des infrastructures interactives et des limitations initiales des modèles de base. Dans ce travail, nous présentons UItron, un modèle de base open-source pour les agents GUI automatiques, doté de capacités avancées en perception, ancrage et planification d'interfaces graphiques. UItron souligne la nécessité d'une ingénierie des données systémique et d'infrastructures interactives comme éléments fondamentaux pour faire progresser le développement des agents GUI. Il étudie systématiquement une série de stratégies d'ingénierie des données pour améliorer les effets d'entraînement, tout en établissant un environnement interactif connectant à la fois les appareils mobiles et PC. Pour l'entraînement, UItron adopte un ajustement supervisé pour les tâches de perception et de planification dans divers scénarios d'interfaces graphiques, puis développe un cadre d'apprentissage par renforcement curriculaire pour permettre un raisonnement complexe et une exploration dans des environnements en ligne. En conséquence, UItron obtient des performances supérieures dans les benchmarks de perception, ancrage et planification d'interfaces graphiques. En particulier, UItron met en avant une maîtrise de l'interaction avec les applications mobiles chinoises de premier plan, car nous avons identifié un manque général de capacités en chinois même dans les solutions les plus avancées. À cette fin, nous collectons manuellement plus d'un million d'étapes de trajectoires d'opération parmi les 100 applications les plus populaires, et construisons des environnements d'évaluation d'agents hors ligne et en ligne. Les résultats expérimentaux montrent qu'UItron réalise des progrès significatifs dans les scénarios d'applications chinoises, rapprochant ainsi les agents GUI d'une application réelle.

English

GUI agent aims to enable automated operations on Mobile/PC devices, which is an important task toward achieving artificial general intelligence. The rapid advancement of VLMs accelerates the development of GUI agents, owing to their powerful capabilities in visual understanding and task planning. However, building a GUI agent remains a challenging task due to the scarcity of operation trajectories, the availability of interactive infrastructure, and the limitation of initial capabilities in foundation models. In this work, we introduce UItron, an open-source foundational model for automatic GUI agents, featuring advanced GUI perception, grounding, and planning capabilities. UItron highlights the necessity of systemic data engineering and interactive infrastructure as foundational components for advancing GUI agent development. It not only systematically studies a series of data engineering strategies to enhance training effects, but also establishes an interactive environment connecting both Mobile and PC devices. In training, UItron adopts supervised finetuning over perception and planning tasks in various GUI scenarios, and then develop a curriculum reinforcement learning framework to enable complex reasoning and exploration for online environments. As a result, UItron achieves superior performance in benchmarks of GUI perception, grounding, and planning. In particular, UItron highlights the interaction proficiency with top-tier Chinese mobile APPs, as we identified a general lack of Chinese capabilities even in state-of-the-art solutions. To this end, we manually collect over one million steps of operation trajectories across the top 100 most popular apps, and build the offline and online agent evaluation environments. Experimental results demonstrate that UItron achieves significant progress in Chinese app scenarios, propelling GUI agents one step closer to real-world application.

UItron : Agent d'interface graphique fondamental doté de capacités avancées de perception et de planification

UItron: Foundational GUI Agent with Advanced Perception and Planning

papers.abstract

Support