UItron: 고급 인지 및 계획 기능을 갖춘 기초 GUI 에이전트
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
저자: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
초록
GUI 에이전트는 모바일/PC 기기에서의 자동화된 작업 수행을 목표로 하며, 이는 인공 일반 지능(AGI) 달성을 위한 중요한 과제입니다. 시각적 이해와 작업 계획에 있어 강력한 능력을 보이는 VLM(Vision-Language Model)의 급속한 발전은 GUI 에이전트 개발을 가속화하고 있습니다. 그러나 작업 궤적의 부족, 상호작용 인프라의 가용성, 그리고 기초 모델의 초기 능력 한계로 인해 GUI 에이전트 구축은 여전히 도전적인 과제로 남아 있습니다. 본 연구에서는 자동화 GUI 에이전트를 위한 오픈소스 기초 모델인 UItron을 소개합니다. UItron은 고급 GUI 인지, 그라운딩, 그리고 계획 능력을 특징으로 하며, GUI 에이전트 개발을 위한 시스템적 데이터 엔지니어링과 상호작용 인프라의 필요성을 강조합니다. UItron은 훈련 효과를 향상시키기 위한 일련의 데이터 엔지니어링 전략을 체계적으로 연구할 뿐만 아니라, 모바일과 PC 기기를 연결하는 상호작용 환경을 구축합니다. 훈련 과정에서 UItron은 다양한 GUI 시나리오에서의 인지 및 계획 작업에 대한 지도 미세 조정을 채택하고, 온라인 환경에서의 복잡한 추론과 탐색을 가능하게 하는 커리큘럼 강화 학습 프레임워크를 개발합니다. 그 결과, UItron은 GUI 인지, 그라운딩, 그리고 계획 벤치마크에서 우수한 성능을 달성합니다. 특히, UItron은 최신 솔루션에서도 일반적으로 부족한 중국어 능력을 보완하며, 상위권 중국 모바일 앱과의 상호작용 숙련도를 강조합니다. 이를 위해 상위 100개 인기 앱에서 100만 단계 이상의 작업 궤적을 수동으로 수집하고, 오프라인 및 온라인 에이전트 평가 환경을 구축했습니다. 실험 결과는 UItron이 중국 앱 시나리오에서 상당한 진전을 이루며, GUI 에이전트가 실제 세계 적용에 한 걸음 더 가까워졌음을 보여줍니다.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.