UItron: Agente de Interface Gráfica Fundamental com Percepção e Planejamento Avançados

Resumo

O agente GUI visa permitir operações automatizadas em dispositivos móveis/PC, o que é uma tarefa importante para alcançar a inteligência artificial geral. O rápido avanço dos VLMs acelera o desenvolvimento de agentes GUI, devido às suas poderosas capacidades de compreensão visual e planejamento de tarefas. No entanto, construir um agente GUI continua sendo uma tarefa desafiadora devido à escassez de trajetórias de operação, à disponibilidade de infraestrutura interativa e à limitação das capacidades iniciais dos modelos de base. Neste trabalho, apresentamos o UItron, um modelo de base de código aberto para agentes GUI automáticos, com capacidades avançadas de percepção, fundamentação e planejamento de GUI. O UItron destaca a necessidade de engenharia de dados sistêmica e infraestrutura interativa como componentes fundamentais para o avanço do desenvolvimento de agentes GUI. Ele não apenas estuda sistematicamente uma série de estratégias de engenharia de dados para melhorar os efeitos do treinamento, mas também estabelece um ambiente interativo que conecta dispositivos móveis e PC. No treinamento, o UItron adota o ajuste fino supervisionado para tarefas de percepção e planejamento em vários cenários de GUI, e então desenvolve uma estrutura de aprendizado por reforço curricular para permitir raciocínio complexo e exploração em ambientes online. Como resultado, o UItron alcança desempenho superior em benchmarks de percepção, fundamentação e planejamento de GUI. Em particular, o UItron destaca a proficiência de interação com os principais aplicativos móveis chineses, já que identificamos uma falta geral de capacidades em chinês mesmo nas soluções mais avançadas. Para isso, coletamos manualmente mais de um milhão de passos de trajetórias de operação nos 100 aplicativos mais populares e construímos os ambientes de avaliação de agentes offline e online. Os resultados experimentais demonstram que o UItron alcança progresso significativo em cenários de aplicativos chineses, impulsionando os agentes GUI um passo mais perto da aplicação no mundo real.

English

GUI agent aims to enable automated operations on Mobile/PC devices, which is an important task toward achieving artificial general intelligence. The rapid advancement of VLMs accelerates the development of GUI agents, owing to their powerful capabilities in visual understanding and task planning. However, building a GUI agent remains a challenging task due to the scarcity of operation trajectories, the availability of interactive infrastructure, and the limitation of initial capabilities in foundation models. In this work, we introduce UItron, an open-source foundational model for automatic GUI agents, featuring advanced GUI perception, grounding, and planning capabilities. UItron highlights the necessity of systemic data engineering and interactive infrastructure as foundational components for advancing GUI agent development. It not only systematically studies a series of data engineering strategies to enhance training effects, but also establishes an interactive environment connecting both Mobile and PC devices. In training, UItron adopts supervised finetuning over perception and planning tasks in various GUI scenarios, and then develop a curriculum reinforcement learning framework to enable complex reasoning and exploration for online environments. As a result, UItron achieves superior performance in benchmarks of GUI perception, grounding, and planning. In particular, UItron highlights the interaction proficiency with top-tier Chinese mobile APPs, as we identified a general lack of Chinese capabilities even in state-of-the-art solutions. To this end, we manually collect over one million steps of operation trajectories across the top 100 most popular apps, and build the offline and online agent evaluation environments. Experimental results demonstrate that UItron achieves significant progress in Chinese app scenarios, propelling GUI agents one step closer to real-world application.

UItron: Agente de Interface Gráfica Fundamental com Percepção e Planejamento Avançados

UItron: Foundational GUI Agent with Advanced Perception and Planning

Resumo

Support