ChatPaper.aiChatPaper

UI-TARS-2 技術レポート:マルチターン強化学習によるGUIエージェントの進化

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

September 2, 2025
著者: Haoming Wang, Haoyang Zou, Huatong Song, Jiazhan Feng, Junjie Fang, Junting Lu, Longxiang Liu, Qinyu Luo, Shihao Liang, Shijue Huang, Wanjun Zhong, Yining Ye, Yujia Qin, Yuwen Xiong, Yuxin Song, Zhiyong Wu, Bo Li, Chen Dun, Chong Liu, Fuxing Leng, Hanbin Wang, Hao Yu, Haobin Chen, Hongyi Guo, Jing Su, Jingjia Huang, Kai Shen, Kaiyu Shi, Lin Yan, Peiyao Zhao, Pengfei Liu, Qinghao Ye, Renjie Zheng, Wayne Xin Zhao, Wen Heng, Wenhao Huang, Wenqian Wang, Xiaobo Qin, Yi Lin, Youbin Wu, Zehui Chen, Zihao Wang, Baoquan Zhong, Xinchun Zhang, Xujing Li, Yuanfan Li, Zhongkai Zhao, Chengquan Jiang, Faming Wu, Haotian Zhou, Jinlin Pang, Li Han, Qianli Ma, Siyao Liu, Songhua Cai, Wenqi Fu, Xin Liu, Zhi Zhang, Bo Zhou, Guoliang Li, Jiajun Shi, Jiale Yang, Jie Tang, Li Li, Taoran Lu, Woyu Lin, Xiaokang Tong, Xinyao Li, Yichi Zhang, Yu Miao, Zhengxuan Jiang, Zili Li, Ziyuan Zhao, Chenxin Li, Dehua Ma, Feng Lin, Ge Zhang, Haihua Yang, Hangyu Guo, Hongda Zhu, Jiaheng Liu, Junda Du, Kai Cai, Kuanye Li, Lichen Yuan, Meilan Han, Minchao Wang, Shuyue Guo, Tianhao Cheng, Xiaobo Ma, Xiaojun Xiao, Xiaolong Huang, Xinjie Chen, Yidi Du, Yilin Chen, Yiwen Wang, Zhaojian Li, Zhenzhu Yang, Zhiyuan Zeng, Chaolin Jin, Chen Li, Hao Chen, Haoli Chen, Jian Chen, Qinghao Zhao, Guang Shi
cs.AI

要旨

グラフィカルユーザーインターフェース(GUI)向け自律エージェントの開発は、人工知能における主要な課題を提起しています。最近のネイティブエージェントモデルの進歩は、エンドツーエンド学習を通じて知覚、推論、行動、記憶を統合することで有望な成果を示していますが、データのスケーラビリティ、マルチターン強化学習(RL)、GUIのみの操作の制限、環境の安定性といった未解決の問題が残っています。本技術レポートでは、これらの課題に対処するネイティブGUI中心のエージェントモデルUI-TARS-2を紹介します。UI-TARS-2は、スケーラブルなデータ生成のためのデータフライホイール、安定化されたマルチターンRLフレームワーク、ファイルシステムとターミナルを統合したハイブリッドGUI環境、大規模ロールアウトのための統一サンドボックスプラットフォームという体系的なトレーニング方法論を採用しています。実証評価により、UI-TARS-2は前身のUI-TARS-1.5を大幅に上回ることが示されました。GUIベンチマークでは、Online-Mind2Webで88.2、OSWorldで47.5、WindowsAgentArenaで50.6、AndroidWorldで73.3を達成し、ClaudeやOpenAIエージェントなどの強力なベースラインを凌駕しました。ゲーム環境では、15ゲームスイート全体で平均正規化スコア59.8を達成し、人間レベルのパフォーマンスの約60%に相当し、LMGame-Benchでは最先端のプロプライエタリモデル(例:OpenAI o3)と競争力を維持しました。さらに、モデルは長期情報探索タスクやソフトウェアエンジニアリングベンチマークにも一般化でき、多様なエージェントタスクにおける堅牢性が強調されています。トレーニングダイナミクスの詳細な分析は、大規模エージェントRLにおける安定性と効率性を達成するための洞察を提供します。これらの結果は、UI-TARS-2がGUIエージェントの状態を進歩させ、現実世界のインタラクティブシナリオへの強力な一般化を示す可能性を裏付けています。
English
The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent model that addresses these challenges through a systematic training methodology: a data flywheel for scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI environment that integrates file systems and terminals, and a unified sandbox platform for large-scale rollouts. Empirical evaluation demonstrates that UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5. On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines such as Claude and OpenAI agents. In game environments, it attains a mean normalized score of 59.8 across a 15-game suite-roughly 60% of human-level performance-and remains competitive with frontier proprietary models (e.g., OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to long-horizon information-seeking tasks and software engineering benchmarks, highlighting its robustness across diverse agent tasks. Detailed analyses of training dynamics further provide insights into achieving stability and efficiency in large-scale agent RL. These results underscore UI-TARS-2's potential to advance the state of GUI agents and exhibit strong generalization to real-world interactive scenarios.
PDF974September 3, 2025