UItron: Agente GUI Fundamental con Percepción y Planificación Avanzadas
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
Autores: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
Resumen
El agente GUI tiene como objetivo permitir operaciones automatizadas en dispositivos móviles y de PC, lo cual es una tarea importante hacia la consecución de la inteligencia artificial general. El rápido avance de los modelos de lenguaje visual (VLMs) acelera el desarrollo de agentes GUI, gracias a sus potentes capacidades en comprensión visual y planificación de tareas. Sin embargo, construir un agente GUI sigue siendo una tarea desafiante debido a la escasez de trayectorias de operación, la disponibilidad de infraestructura interactiva y las limitaciones iniciales de capacidades en los modelos base. En este trabajo, presentamos UItron, un modelo base de código abierto para agentes GUI automáticos, que cuenta con capacidades avanzadas de percepción, anclaje y planificación de GUI. UItron destaca la necesidad de la ingeniería de datos sistémica y la infraestructura interactiva como componentes fundamentales para avanzar en el desarrollo de agentes GUI. No solo estudia sistemáticamente una serie de estrategias de ingeniería de datos para mejorar los efectos del entrenamiento, sino que también establece un entorno interactivo que conecta tanto dispositivos móviles como de PC. En el entrenamiento, UItron adopta el ajuste fino supervisado para tareas de percepción y planificación en diversos escenarios de GUI, y luego desarrolla un marco de aprendizaje por refuerzo curricular para permitir razonamiento complejo y exploración en entornos en línea. Como resultado, UItron logra un rendimiento superior en puntos de referencia de percepción, anclaje y planificación de GUI. En particular, UItron destaca la competencia en la interacción con aplicaciones móviles chinas de primer nivel, ya que identificamos una falta general de capacidades en chino incluso en las soluciones más avanzadas. Para ello, recopilamos manualmente más de un millón de pasos de trayectorias de operación en las 100 aplicaciones más populares, y construimos entornos de evaluación de agentes tanto en línea como fuera de línea. Los resultados experimentales demuestran que UItron logra un progreso significativo en escenarios de aplicaciones chinas, acercando a los agentes GUI un paso más hacia la aplicación en el mundo real.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.