UI-TARS: Первоначальное автоматизированное взаимодействие с графическим интерфейсом пользователя с использованием нативных агентов.

Аннотация

Эта статья представляет UI-TARS, модель агента с нативным графическим пользовательским интерфейсом, которая воспринимает только скриншоты в качестве входных данных и выполняет взаимодействия, подобные человеческим (например, операции с клавиатурой и мышью). В отличие от преобладающих агентских фреймворков, зависящих от сильно обернутых коммерческих моделей (например, GPT-4o) с экспертно разработанными подсказками и рабочими процессами, UI-TARS является моделью end-to-end, превосходящей эти сложные фреймворки. Эксперименты демонстрируют его превосходную производительность: UI-TARS достигает SOTA-производительности в 10+ бенчмарках для GUI-агентов, оценивающих восприятие, опору и выполнение задач GUI. Заметно, что в бенчмарке OSWorld UI-TARS достигает результатов 24.6 за 50 шагов и 22.7 за 15 шагов, превосходя Claude (соответственно 22.0 и 14.9). В AndroidWorld UI-TARS достигает 46.6, опережая GPT-4o (34.5). UI-TARS включает несколько ключевых инноваций: (1) Улучшенное восприятие: использование крупномасштабного набора данных скриншотов GUI для контекстно-осознанного понимания элементов пользовательского интерфейса и точного описания; (2) Унифицированное моделирование действий, стандартизующее действия в единое пространство на различных платформах и достигающее точной опоры и взаимодействия через крупномасштабные следы действий; (3) Рассуждение системы-2, включающее обдуманное рассуждение в принятие решений на несколько шагов, включая несколько видов рассуждений, таких как декомпозиция задач, рефлексивное мышление, распознавание вех и т. д.; (4) Итеративное обучение с рефлексивными онлайн-следами, решающее проблему данных путем автоматического сбора, фильтрации и рефлексивного улучшения новых следов взаимодействия на сотнях виртуальных машин. Через итеративное обучение и настройку рефлексии UI-TARS непрерывно учится на своих ошибках и адаптируется к непредвиденным ситуациям с минимальным вмешательством человека. Мы также анализируем путь эволюции GUI-агентов для направления дальнейшего развития этой области.

English

This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.

UI-TARS: Первоначальное автоматизированное взаимодействие с графическим интерфейсом пользователя с использованием нативных агентов.

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Аннотация

Support