UI-TARS-2 Technischer Bericht: Weiterentwicklung von GUI-Agenten durch Multi-Turn Reinforcement Learning
UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
September 2, 2025
papers.authors: Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi
cs.AI
papers.abstract
Die Entwicklung autonomer Agenten für grafische Benutzeroberflächen (GUIs) stellt bedeutende Herausforderungen in der künstlichen Intelligenz dar. Während jüngste Fortschritte bei nativen Agentenmodellen vielversprechend waren, indem sie Wahrnehmung, logisches Denken, Handeln und Gedächtnis durch End-to-End-Lernen vereinheitlicht haben, bleiben offene Probleme in Bezug auf die Skalierbarkeit von Daten, mehrstufiges Reinforcement Learning (RL), die Beschränkungen des reinen GUI-Betriebs und die Stabilität der Umgebung bestehen. In diesem technischen Bericht stellen wir UI-TARS-2 vor, ein natives, GUI-zentriertes Agentenmodell, das diese Herausforderungen durch eine systematische Trainingsmethodik angeht: ein Daten-Flywheel für skalierbare Datengenerierung, ein stabilisiertes mehrstufiges RL-Framework, eine hybride GUI-Umgebung, die Dateisysteme und Terminals integriert, und eine einheitliche Sandbox-Plattform für groß angelegte Rollouts. Empirische Auswertungen zeigen, dass UI-TARS-2 signifikante Verbesserungen gegenüber seinem Vorgänger UI-TARS-1.5 erzielt. Bei GUI-Benchmarks erreicht es 88,2 auf Online-Mind2Web, 47,5 auf OSWorld, 50,6 auf WindowsAgentArena und 73,3 auf AndroidWorld und übertrifft damit starke Baselines wie Claude und OpenAI-Agenten. In Spielumgebungen erreicht es einen durchschnittlichen normalisierten Score von 59,8 über eine Suite von 15 Spielen – etwa 60 % der menschlichen Leistung – und bleibt wettbewerbsfähig mit führenden proprietären Modellen (z. B. OpenAI o3) auf LMGame-Bench. Darüber hinaus kann das Modell auf langfristige informationssuchende Aufgaben und Software-Engineering-Benchmarks verallgemeinern, was seine Robustheit über diverse Agentenaufgaben hinweg unterstreicht. Detaillierte Analysen der Trainingsdynamik liefern weitere Einblicke in die Erreichung von Stabilität und Effizienz bei groß angelegtem Agenten-RL. Diese Ergebnisse unterstreichen das Potenzial von UI-TARS-2, den Stand der GUI-Agenten voranzutreiben und eine starke Generalisierung auf reale interaktive Szenarien zu zeigen.
English
The development of autonomous agents for graphical user interfaces (GUIs)
presents major challenges in artificial intelligence. While recent advances in
native agent models have shown promise by unifying perception, reasoning,
action, and memory through end-to-end learning, open problems remain in data
scalability, multi-turn reinforcement learning (RL), the limitations of
GUI-only operation, and environment stability. In this technical report, we
present UI-TARS-2, a native GUI-centered agent model that addresses these
challenges through a systematic training methodology: a data flywheel for
scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI
environment that integrates file systems and terminals, and a unified sandbox
platform for large-scale rollouts. Empirical evaluation demonstrates that
UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5.
On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on
WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines
such as Claude and OpenAI agents. In game environments, it attains a mean
normalized score of 59.8 across a 15-game suite-roughly 60% of human-level
performance-and remains competitive with frontier proprietary models (e.g.,
OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to
long-horizon information-seeking tasks and software engineering benchmarks,
highlighting its robustness across diverse agent tasks. Detailed analyses of
training dynamics further provide insights into achieving stability and
efficiency in large-scale agent RL. These results underscore UI-TARS-2's
potential to advance the state of GUI agents and exhibit strong generalization
to real-world interactive scenarios.