ChatPaper.aiChatPaper

UI-TARS-2 기술 보고서: 다중 턴 강화 학습을 통한 GUI 에이전트 발전

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

September 2, 2025
저자: Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi
cs.AI

초록

그래픽 사용자 인터페이스(GUI)를 위한 자율 에이전트 개발은 인공지능 분야에서 주요한 과제를 제시합니다. 최근 네이티브 에이전트 모델의 발전은 인지, 추론, 행동, 그리고 메모리를 종단 간 학습을 통해 통합함으로써 유망한 결과를 보여주었지만, 데이터 확장성, 다중 턴 강화 학습(RL), GUI 전용 운영의 한계, 그리고 환경 안정성 등에서 여전히 해결해야 할 문제들이 남아 있습니다. 본 기술 보고서에서는 이러한 과제들을 체계적인 훈련 방법론을 통해 해결한 GUI 중심의 네이티브 에이전트 모델인 UI-TARS-2를 소개합니다. 이 방법론에는 확장 가능한 데이터 생성을 위한 데이터 플라이휠, 안정화된 다중 턴 RL 프레임워크, 파일 시스템과 터미널을 통합한 하이브리드 GUI 환경, 그리고 대규모 롤아웃을 위한 통합 샌드박스 플랫폼이 포함됩니다. 실험적 평가 결과, UI-TARS-2는 이전 버전인 UI-TARS-1.5에 비해 상당한 개선을 달성했습니다. GUI 벤치마크에서 UI-TARS-2는 Online-Mind2Web에서 88.2, OSWorld에서 47.5, WindowsAgentArena에서 50.6, 그리고 AndroidWorld에서 73.3의 점수를 기록하며 Claude 및 OpenAI 에이전트와 같은 강력한 베이스라인을 능가했습니다. 게임 환경에서는 15개 게임 스위트에서 평균 정규화 점수 59.8을 달성하여 인간 수준의 약 60%에 해당하는 성능을 보였으며, LMGame-Bench에서도 OpenAI o3와 같은 최첨단 독점 모델과 경쟁력을 유지했습니다. 또한, 이 모델은 장기간 정보 탐색 작업과 소프트웨어 엔지니어링 벤치마크로 일반화할 수 있어 다양한 에이전트 작업에서의 견고성을 입증했습니다. 훈련 역학에 대한 상세한 분석은 대규모 에이전트 RL에서 안정성과 효율성을 달성하는 데 대한 통찰을 제공합니다. 이러한 결과들은 UI-TARS-2가 GUI 에이전트의 현황을 발전시키고 실제 상호작용 시나리오로의 강력한 일반화 능력을 보여줄 잠재력을 강조합니다.
English
The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent model that addresses these challenges through a systematic training methodology: a data flywheel for scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI environment that integrates file systems and terminals, and a unified sandbox platform for large-scale rollouts. Empirical evaluation demonstrates that UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5. On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines such as Claude and OpenAI agents. In game environments, it attains a mean normalized score of 59.8 across a 15-game suite-roughly 60% of human-level performance-and remains competitive with frontier proprietary models (e.g., OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to long-horizon information-seeking tasks and software engineering benchmarks, highlighting its robustness across diverse agent tasks. Detailed analyses of training dynamics further provide insights into achieving stability and efficiency in large-scale agent RL. These results underscore UI-TARS-2's potential to advance the state of GUI agents and exhibit strong generalization to real-world interactive scenarios.
PDF974September 3, 2025