Технический отчет UI-TARS-2: Развитие агента для графического интерфейса с использованием многошагового обучения с подкреплением

Аннотация

Разработка автономных агентов для графических пользовательских интерфейсов (GUI) представляет собой серьезные вызовы в области искусственного интеллекта. Хотя недавние достижения в области нативных моделей агентов показали перспективность благодаря объединению восприятия, рассуждений, действий и памяти посредством сквозного обучения, остаются нерешенные проблемы, такие как масштабируемость данных, многократное обучение с подкреплением (RL), ограничения работы только с GUI и стабильность среды. В данном техническом отчете мы представляем UI-TARS-2 — нативную модель агента, ориентированную на GUI, которая решает эти задачи с помощью систематической методологии обучения: механизма "маховика данных" для масштабируемой генерации данных, стабилизированной многократной RL-структуры, гибридной среды GUI, интегрирующей файловые системы и терминалы, а также унифицированной песочницы для масштабных развертываний. Эмпирическая оценка демонстрирует, что UI-TARS-2 значительно превосходит своего предшественника UI-TARS-1.5. На тестах для GUI он достигает 88,2 на Online-Mind2Web, 47,5 на OSWorld, 50,6 на WindowsAgentArena и 73,3 на AndroidWorld, опережая сильные базовые модели, такие как Claude и агенты OpenAI. В игровых средах он достигает среднего нормализованного показателя 59,8 на наборе из 15 игр — примерно 60% от уровня человека — и остается конкурентоспособным с передовыми проприетарными моделями (например, OpenAI o3) на LMGame-Bench. Кроме того, модель способна обобщать задачи с длительным горизонтом планирования, связанные с поиском информации, и тесты для программной инженерии, что подчеркивает ее устойчивость в разнообразных задачах агентов. Детальный анализ динамики обучения также предоставляет ценные инсайты для достижения стабильности и эффективности в крупномасштабном RL агентов. Эти результаты подчеркивают потенциал UI-TARS-2 для продвижения состояния агентов GUI и демонстрируют его сильную способность к обобщению в реальных интерактивных сценариях.

English

The development of autonomous agents for graphical user interfaces (GUIs) presents major challenges in artificial intelligence. While recent advances in native agent models have shown promise by unifying perception, reasoning, action, and memory through end-to-end learning, open problems remain in data scalability, multi-turn reinforcement learning (RL), the limitations of GUI-only operation, and environment stability. In this technical report, we present UI-TARS-2, a native GUI-centered agent model that addresses these challenges through a systematic training methodology: a data flywheel for scalable data generation, a stabilized multi-turn RL framework, a hybrid GUI environment that integrates file systems and terminals, and a unified sandbox platform for large-scale rollouts. Empirical evaluation demonstrates that UI-TARS-2 achieves significant improvements over its predecessor UI-TARS-1.5. On GUI benchmarks, it reaches 88.2 on Online-Mind2Web, 47.5 on OSWorld, 50.6 on WindowsAgentArena, and 73.3 on AndroidWorld, outperforming strong baselines such as Claude and OpenAI agents. In game environments, it attains a mean normalized score of 59.8 across a 15-game suite-roughly 60% of human-level performance-and remains competitive with frontier proprietary models (e.g., OpenAI o3) on LMGame-Bench. Additionally, the model can generalize to long-horizon information-seeking tasks and software engineering benchmarks, highlighting its robustness across diverse agent tasks. Detailed analyses of training dynamics further provide insights into achieving stability and efficiency in large-scale agent RL. These results underscore UI-TARS-2's potential to advance the state of GUI agents and exhibit strong generalization to real-world interactive scenarios.

Технический отчет UI-TARS-2: Развитие агента для графического интерфейса с использованием многошагового обучения с подкреплением

UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

Аннотация

Support