Informe Técnico UI-TARS-2: Avanzando en Agentes de Interfaz Gráfica con Aprendizaje por Refuerzo Multiturno

Resumen

El desarrollo de agentes autónomos para interfaces gráficas de usuario (GUI) presenta desafíos significativos en inteligencia artificial. Si bien los avances recientes en modelos de agentes nativos han mostrado promesa al unificar percepción, razonamiento, acción y memoria mediante aprendizaje de extremo a extremo, persisten problemas abiertos en la escalabilidad de datos, el aprendizaje por refuerzo (RL) de múltiples turnos, las limitaciones de operación exclusiva en GUI y la estabilidad del entorno. En este informe técnico, presentamos UI-TARS-2, un modelo de agente nativo centrado en GUI que aborda estos desafíos mediante una metodología de entrenamiento sistemática: un volante de datos para la generación escalable de datos, un marco de RL de múltiples turnos estabilizado, un entorno híbrido de GUI que integra sistemas de archivos y terminales, y una plataforma unificada de sandbox para despliegues a gran escala. La evaluación empírica demuestra que UI-TARS-2 logra mejoras significativas sobre su predecesor UI-TARS-1.5. En benchmarks de GUI, alcanza 88.2 en Online-Mind2Web, 47.5 en OSWorld, 50.6 en WindowsAgentArena y 73.3 en AndroidWorld, superando a líneas base sólidas como Claude y los agentes de OpenAI. En entornos de juegos, obtiene una puntuación normalizada media de 59.8 en una suite de 15 juegos, aproximadamente el 60% del rendimiento humano, y se mantiene competitivo con modelos propietarios de vanguardia (por ejemplo, OpenAI o3) en LMGame-Bench. Además, el modelo puede generalizarse a tareas de búsqueda de información de largo horizonte y benchmarks de ingeniería de software, destacando su robustez en diversas tareas de agentes. Los análisis detallados de la dinámica de entrenamiento proporcionan además insights sobre cómo lograr estabilidad y eficiencia en RL de agentes a gran escala. Estos resultados subrayan el potencial de UI-TARS-2 para avanzar el estado de los agentes de GUI y exhibir una fuerte generalización a escenarios interactivos del mundo real.

English

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent model that addresses these challenges through a systematic training methodology: a data flywheel for scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI environment that integrates file systems and terminals, and a unified sandbox platform for large-scale rollouts. Empirical evaluation demonstrates that UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5. On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines such as Claude and OpenAI agents. In game environments, it attains a mean normalized score of 59.8 across a 15-game suite-roughly 60% of human-level performance-and remains competitive with frontier proprietary models (e.g., OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to long-horizon information-seeking tasks and software engineering benchmarks, highlighting its robustness across diverse agent tasks. Detailed analyses of training dynamics further provide insights into achieving stability and efficiency in large-scale agent RL. These results underscore UI-TARS-2's potential to advance the state of GUI agents and exhibit strong generalization to real-world interactive scenarios.

Informe Técnico UI-TARS-2: Avanzando en Agentes de Interfaz Gráfica con Aprendizaje por Refuerzo Multiturno

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Resumen

Support