Rapport technique UI-TARS-2 : Amélioration des agents d’interface graphique grâce à l’apprentissage par renforcement multi-tours

papers.abstract

Le développement d'agents autonomes pour les interfaces graphiques utilisateur (GUI) présente des défis majeurs en intelligence artificielle. Bien que les récents progrès des modèles d'agents natifs aient montré des résultats prometteurs en unifiant la perception, le raisonnement, l'action et la mémoire grâce à un apprentissage de bout en bout, des problèmes ouverts subsistent en matière d'évolutivité des données, d'apprentissage par renforcement multi-tours (RL), des limitations liées à l'opération exclusive sur les GUI et de la stabilité de l'environnement. Dans ce rapport technique, nous présentons UI-TARS-2, un modèle d'agent natif centré sur les GUI qui relève ces défis grâce à une méthodologie d'entraînement systématique : un mécanisme de génération de données évolutif, un cadre de RL multi-tours stabilisé, un environnement hybride de GUI intégrant les systèmes de fichiers et les terminaux, et une plateforme de sandbox unifiée pour des déploiements à grande échelle. L'évaluation empirique démontre que UI-TARS-2 réalise des améliorations significatives par rapport à son prédécesseur UI-TARS-1.5. Sur les benchmarks de GUI, il atteint 88,2 sur Online-Mind2Web, 47,5 sur OSWorld, 50,6 sur WindowsAgentArena et 73,3 sur AndroidWorld, surpassant des bases de référence solides telles que Claude et les agents OpenAI. Dans les environnements de jeu, il obtient un score normalisé moyen de 59,8 sur une suite de 15 jeux, soit environ 60 % des performances humaines, et reste compétitif avec les modèles propriétaires de pointe (par exemple, OpenAI o3) sur LMGame-Bench. De plus, le modèle peut généraliser à des tâches de recherche d'information à long terme et à des benchmarks d'ingénierie logicielle, mettant en évidence sa robustesse dans diverses tâches d'agents. Des analyses détaillées de la dynamique d'entraînement fournissent également des insights sur la réalisation de la stabilité et de l'efficacité dans le RL d'agents à grande échelle. Ces résultats soulignent le potentiel de UI-TARS-2 à faire progresser l'état des agents GUI et à démontrer une forte généralisation dans des scénarios interactifs du monde réel.

English

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent model that addresses these challenges through a systematic training methodology: a data flywheel for scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI environment that integrates file systems and terminals, and a unified sandbox platform for large-scale rollouts. Empirical evaluation demonstrates that UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5. On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines such as Claude and OpenAI agents. In game environments, it attains a mean normalized score of 59.8 across a 15-game suite-roughly 60% of human-level performance-and remains competitive with frontier proprietary models (e.g., OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to long-horizon information-seeking tasks and software engineering benchmarks, highlighting its robustness across diverse agent tasks. Detailed analyses of training dynamics further provide insights into achieving stability and efficiency in large-scale agent RL. These results underscore UI-TARS-2's potential to advance the state of GUI agents and exhibit strong generalization to real-world interactive scenarios.

Rapport technique UI-TARS-2 : Amélioration des agents d’interface graphique grâce à l’apprentissage par renforcement multi-tours

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

papers.abstract

Support