UI-TARS: Interacción automatizada pionera de GUI con agentes nativos

Resumen

Este documento presenta UI-TARS, un modelo de agente GUI nativo que percibe exclusivamente las capturas de pantalla como entrada y realiza interacciones humanas (por ejemplo, operaciones de teclado y ratón). A diferencia de los marcos de agentes predominantes que dependen en gran medida de modelos comerciales altamente envueltos (por ejemplo, GPT-4o) con indicaciones y flujos de trabajo expertamente elaborados, UI-TARS es un modelo de extremo a extremo que supera a estos marcos sofisticados. Los experimentos demuestran su rendimiento superior: UI-TARS logra un rendimiento de estado del arte en más de 10 benchmarks de agentes GUI que evalúan percepción, fundamentación y ejecución de tareas GUI. Especialmente, en el benchmark OSWorld, UI-TARS logra puntuaciones de 24.6 con 50 pasos y 22.7 con 15 pasos, superando a Claude (22.0 y 14.9 respectivamente). En AndroidWorld, UI-TARS alcanza 46.6, superando a GPT-4o (34.5). UI-TARS incorpora varias innovaciones clave: (1) Percepción Mejorada: aprovechando un conjunto de datos a gran escala de capturas de pantalla GUI para comprensión contextual de elementos de la UI y descripciones precisas; (2) Modelado de Acciones Unificado, que estandariza acciones en un espacio unificado entre plataformas y logra una fundamentación e interacción precisas a través de trazas de acciones a gran escala; (3) Razonamiento Sistema-2, que incorpora razonamiento deliberado en la toma de decisiones de múltiples pasos, involucrando múltiples patrones de razonamiento como descomposición de tareas, pensamiento reflexivo, reconocimiento de hitos, etc. (4) Entrenamiento Iterativo con Trazas Reflectivas en Línea, que aborda la restricción de datos mediante la recopilación automática, filtrado y refinamiento reflexivo de nuevas trazas de interacción en cientos de máquinas virtuales. A través del entrenamiento iterativo y ajuste reflexivo, UI-TARS aprende continuamente de sus errores y se adapta a situaciones imprevistas con una intervención humana mínima. También analizamos la trayectoria de evolución de los agentes GUI para guiar el desarrollo futuro de este dominio.

English

This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.

UI-TARS: Interacción automatizada pionera de GUI con agentes nativos

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Resumen

Support