UItron: Базовый GUI-агент с расширенными возможностями восприятия и планирования
UItron: Foundational GUI Agent with Advanced Perception and Planning
August 29, 2025
Авторы: Zhixiong Zeng, Jing Huang, Liming Zheng, Wenkang Han, Yufeng Zhong, Lei Chen, Longrong Yang, Yingjie Chu, Yuzhi He, Lin Ma
cs.AI
Аннотация
GUI-агент направлен на автоматизацию операций на мобильных и ПК-устройствах, что является важной задачей на пути к достижению искусственного общего интеллекта. Быстрое развитие визуально-языковых моделей (VLMs) ускоряет разработку GUI-агентов благодаря их мощным возможностям в области визуального понимания и планирования задач. Однако создание GUI-агента остается сложной задачей из-за недостатка данных о траекториях операций, доступности интерактивной инфраструктуры и ограниченных начальных возможностей базовых моделей. В данной работе мы представляем UItron — открытую базовую модель для автоматических GUI-агентов, обладающую продвинутыми возможностями восприятия, привязки и планирования в графических интерфейсах. UItron подчеркивает необходимость системной инженерии данных и интерактивной инфраструктуры как фундаментальных компонентов для развития GUI-агентов. Модель не только систематически изучает стратегии инженерии данных для улучшения эффектов обучения, но и создает интерактивную среду, объединяющую мобильные и ПК-устройства. В процессе обучения UItron использует контролируемую донастройку для задач восприятия и планирования в различных GUI-сценариях, а затем разрабатывает структуру обучения с подкреплением по учебному плану для обеспечения сложного рассуждения и исследования в онлайн-средах. В результате UItron демонстрирует превосходную производительность в тестах на восприятие, привязку и планирование в графических интерфейсах. В частности, UItron выделяется высокой степенью взаимодействия с популярными китайскими мобильными приложениями, поскольку мы обнаружили общий недостаток поддержки китайского языка даже в современных решениях. Для этого мы вручную собрали более миллиона шагов траекторий операций в топ-100 самых популярных приложений и создали оффлайн- и онлайн-среды для оценки агентов. Экспериментальные результаты показывают, что UItron достигает значительного прогресса в сценариях с китайскими приложениями, приближая GUI-агенты к реальному применению.
English
GUI agent aims to enable automated operations on Mobile/PC devices, which is
an important task toward achieving artificial general intelligence. The rapid
advancement of VLMs accelerates the development of GUI agents, owing to their
powerful capabilities in visual understanding and task planning. However,
building a GUI agent remains a challenging task due to the scarcity of
operation trajectories, the availability of interactive infrastructure, and the
limitation of initial capabilities in foundation models. In this work, we
introduce UItron, an open-source foundational model for automatic GUI agents,
featuring advanced GUI perception, grounding, and planning capabilities. UItron
highlights the necessity of systemic data engineering and interactive
infrastructure as foundational components for advancing GUI agent development.
It not only systematically studies a series of data engineering strategies to
enhance training effects, but also establishes an interactive environment
connecting both Mobile and PC devices. In training, UItron adopts supervised
finetuning over perception and planning tasks in various GUI scenarios, and
then develop a curriculum reinforcement learning framework to enable complex
reasoning and exploration for online environments. As a result, UItron achieves
superior performance in benchmarks of GUI perception, grounding, and planning.
In particular, UItron highlights the interaction proficiency with top-tier
Chinese mobile APPs, as we identified a general lack of Chinese capabilities
even in state-of-the-art solutions. To this end, we manually collect over one
million steps of operation trajectories across the top 100 most popular apps,
and build the offline and online agent evaluation environments. Experimental
results demonstrate that UItron achieves significant progress in Chinese app
scenarios, propelling GUI agents one step closer to real-world application.