UItron: Agente de Interface Gráfica Fundamental com Percepção e Planejamento Avançados
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
Autores: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
Resumo
O agente GUI visa permitir operações automatizadas em dispositivos móveis/PC, o que é uma tarefa importante para alcançar a inteligência artificial geral. O rápido avanço dos VLMs acelera o desenvolvimento de agentes GUI, devido às suas poderosas capacidades de compreensão visual e planejamento de tarefas. No entanto, construir um agente GUI continua sendo uma tarefa desafiadora devido à escassez de trajetórias de operação, à disponibilidade de infraestrutura interativa e à limitação das capacidades iniciais dos modelos de base. Neste trabalho, apresentamos o UItron, um modelo de base de código aberto para agentes GUI automáticos, com capacidades avançadas de percepção, fundamentação e planejamento de GUI. O UItron destaca a necessidade de engenharia de dados sistêmica e infraestrutura interativa como componentes fundamentais para o avanço do desenvolvimento de agentes GUI. Ele não apenas estuda sistematicamente uma série de estratégias de engenharia de dados para melhorar os efeitos do treinamento, mas também estabelece um ambiente interativo que conecta dispositivos móveis e PC. No treinamento, o UItron adota o ajuste fino supervisionado para tarefas de percepção e planejamento em vários cenários de GUI, e então desenvolve uma estrutura de aprendizado por reforço curricular para permitir raciocínio complexo e exploração em ambientes online. Como resultado, o UItron alcança desempenho superior em benchmarks de percepção, fundamentação e planejamento de GUI. Em particular, o UItron destaca a proficiência de interação com os principais aplicativos móveis chineses, já que identificamos uma falta geral de capacidades em chinês mesmo nas soluções mais avançadas. Para isso, coletamos manualmente mais de um milhão de passos de trajetórias de operação nos 100 aplicativos mais populares e construímos os ambientes de avaliação de agentes offline e online. Os resultados experimentais demonstram que o UItron alcança progresso significativo em cenários de aplicativos chineses, impulsionando os agentes GUI um passo mais perto da aplicação no mundo real.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.