UI-TARS: Interação Automatizada Pioneira com Interfaces Gráficas de Usuário por Agentes Nativos

Resumo

Este artigo apresenta o UI-TARS, um modelo de agente GUI nativo que percebe exclusivamente capturas de tela como entrada e realiza interações humanas (por exemplo, operações de teclado e mouse). Ao contrário dos frameworks de agentes predominantes que dependem de modelos comerciais fortemente encapsulados (por exemplo, GPT-4o) com prompts e fluxos de trabalho criados por especialistas, o UI-TARS é um modelo de ponta a ponta que supera esses frameworks sofisticados. Experimentos demonstram seu desempenho superior: o UI-TARS alcança desempenho de última geração em mais de 10 benchmarks de agentes GUI avaliando percepção, fundamentação e execução de tarefas GUI. Notavelmente, no benchmark OSWorld, o UI-TARS alcança pontuações de 24,6 com 50 passos e 22,7 com 15 passos, superando Claude (22,0 e 14,9, respectivamente). No AndroidWorld, o UI-TARS alcança 46,6, ultrapassando o GPT-4o (34,5). O UI-TARS incorpora várias inovações-chave: (1) Percepção Aprimorada: aproveitando um conjunto de dados em larga escala de capturas de tela GUI para compreensão contextualizada dos elementos da UI e legendagem precisa; (2) Modelagem de Ação Unificada, que padroniza ações em um espaço unificado entre plataformas e alcança fundamentação precisa e interação por meio de rastreamentos de ação em larga escala; (3) Raciocínio do Sistema-2, que incorpora raciocínio deliberado à tomada de decisão em múltiplas etapas, envolvendo múltiplos padrões de raciocínio como decomposição de tarefas, pensamento reflexivo, reconhecimento de marcos, etc. (4) Treinamento Iterativo com Traços Online Reflexivos, que aborda o gargalo de dados coletando, filtrando e refinando reflexivamente novos traços de interação em centenas de máquinas virtuais. Através do treinamento iterativo e ajuste reflexivo, o UI-TARS aprende continuamente com seus erros e se adapta a situações imprevistas com intervenção humana mínima. Também analisamos o caminho de evolução dos agentes GUI para orientar o desenvolvimento adicional deste domínio.

English

This paper introduces UI-TARS, a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations). Unlike prevailing agent frameworks that depend on heavily wrapped commercial models (e.g., GPT-4o) with expert-crafted prompts and workflows, UI-TARS is an end-to-end model that outperforms these sophisticated frameworks. Experiments demonstrate its superior performance: UI-TARS achieves SOTA performance in 10+ GUI agent benchmarks evaluating perception, grounding, and GUI task execution. Notably, in the OSWorld benchmark, UI-TARS achieves scores of 24.6 with 50 steps and 22.7 with 15 steps, outperforming Claude (22.0 and 14.9 respectively). In AndroidWorld, UI-TARS achieves 46.6, surpassing GPT-4o (34.5). UI-TARS incorporates several key innovations: (1) Enhanced Perception: leveraging a large-scale dataset of GUI screenshots for context-aware understanding of UI elements and precise captioning; (2) Unified Action Modeling, which standardizes actions into a unified space across platforms and achieves precise grounding and interaction through large-scale action traces; (3) System-2 Reasoning, which incorporates deliberate reasoning into multi-step decision making, involving multiple reasoning patterns such as task decomposition, reflection thinking, milestone recognition, etc. (4) Iterative Training with Reflective Online Traces, which addresses the data bottleneck by automatically collecting, filtering, and reflectively refining new interaction traces on hundreds of virtual machines. Through iterative training and reflection tuning, UI-TARS continuously learns from its mistakes and adapts to unforeseen situations with minimal human intervention. We also analyze the evolution path of GUI agents to guide the further development of this domain.

UI-TARS: Interação Automatizada Pioneira com Interfaces Gráficas de Usuário por Agentes Nativos

UI-TARS: Pioneering Automated GUI Interaction with Native Agents

Resumo

Support