Rapport technique UI-TARS-2 : Amélioration des agents d’interface graphique grâce à l’apprentissage par renforcement multi-tours
UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
September 2, 2025
papers.authors: Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi
cs.AI
papers.abstract
Le développement d'agents autonomes pour les interfaces graphiques utilisateur (GUI) présente des défis majeurs en intelligence artificielle. Bien que les récents progrès des modèles d'agents natifs aient montré des résultats prometteurs en unifiant la perception, le raisonnement, l'action et la mémoire grâce à un apprentissage de bout en bout, des problèmes ouverts subsistent en matière d'évolutivité des données, d'apprentissage par renforcement multi-tours (RL), des limitations liées à l'opération exclusive sur les GUI et de la stabilité de l'environnement. Dans ce rapport technique, nous présentons UI-TARS-2, un modèle d'agent natif centré sur les GUI qui relève ces défis grâce à une méthodologie d'entraînement systématique : un mécanisme de génération de données évolutif, un cadre de RL multi-tours stabilisé, un environnement hybride de GUI intégrant les systèmes de fichiers et les terminaux, et une plateforme de sandbox unifiée pour des déploiements à grande échelle. L'évaluation empirique démontre que UI-TARS-2 réalise des améliorations significatives par rapport à son prédécesseur UI-TARS-1.5. Sur les benchmarks de GUI, il atteint 88,2 sur Online-Mind2Web, 47,5 sur OSWorld, 50,6 sur WindowsAgentArena et 73,3 sur AndroidWorld, surpassant des bases de référence solides telles que Claude et les agents OpenAI. Dans les environnements de jeu, il obtient un score normalisé moyen de 59,8 sur une suite de 15 jeux, soit environ 60 % des performances humaines, et reste compétitif avec les modèles propriétaires de pointe (par exemple, OpenAI o3) sur LMGame-Bench. De plus, le modèle peut généraliser à des tâches de recherche d'information à long terme et à des benchmarks d'ingénierie logicielle, mettant en évidence sa robustesse dans diverses tâches d'agents. Des analyses détaillées de la dynamique d'entraînement fournissent également des insights sur la réalisation de la stabilité et de l'efficacité dans le RL d'agents à grande échelle. Ces résultats soulignent le potentiel de UI-TARS-2 à faire progresser l'état des agents GUI et à démontrer une forte généralisation dans des scénarios interactifs du monde réel.
English
The development of autonomous agents for graphical user interfaces (GUIs)
presents major challenges in artificial intelligence. While recent advances in
native agent models have shown promise by unifying perception, reasoning,
action, and memory through end-to-end learning, open problems remain in data
scalability, multi-turn reinforcement learning (RL), the limitations of
GUI-only operation, and environment stability. In this technical report, we
present UI-TARS-2, a native GUI-centered agent model that addresses these
challenges through a systematic training methodology: a data flywheel for
scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI
environment that integrates file systems and terminals, and a unified sandbox
platform for large-scale rollouts. Empirical evaluation demonstrates that
UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5.
On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on
WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines
such as Claude and OpenAI agents. In game environments, it attains a mean
normalized score of 59.8 across a 15-game suite-roughly 60% of human-level
performance-and remains competitive with frontier proprietary models (e.g.,
OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to
long-horizon information-seeking tasks and software engineering benchmarks,
highlighting its robustness across diverse agent tasks. Detailed analyses of
training dynamics further provide insights into achieving stability and
efficiency in large-scale agent RL. These results underscore UI-TARS-2's
potential to advance the state of GUI agents and exhibit strong generalization
to real-world interactive scenarios.