VideoAgentTrek: Pré-treinamento de Uso de Computador a partir de Vídeos Não Rotulados
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
October 22, 2025
Autores: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI
Resumo
Treinar agentes de uso de computador requer grandes quantidades de dados de interação com interfaces gráficas (GUI), mas anotar manualmente trajetórias de ações em escala é proibitivamente caro. Apresentamos o VideoAgentTrek, um pipeline escalável que extrai automaticamente dados de treinamento de vídeos gravados de tela disponíveis publicamente em escala web, eliminando a necessidade de anotação manual. Nossa abordagem resolve um desafio crucial: vídeos brutos contêm demonstrações implícitas, mas carecem de rótulos explícitos de ações. Para resolver isso, desenvolvemos o Video2Action, um módulo de dinâmica inversa (IDM) com dois componentes: (1) um modelo de ancoragem de vídeo que detecta e localiza ações na GUI com limites temporais precisos e contexto, e (2) um reconhecedor de conteúdo de ação que extrai parâmetros estruturados, como coordenadas de clique e texto digitado, com alta fidelidade. Aplicado a 39.000 vídeos tutoriais do YouTube, nosso pipeline gera automaticamente 1,52 milhão de etapas de interação. Aproveitamos esses dados por meio de pré-treinamento contínuo seguido de ajuste fino supervisionado. No OSWorld-Verified, nossa abordagem melhora as taxas de sucesso de tarefas de 9,3% (baseline com apenas ajuste fino) para 15,8%, uma melhoria relativa de 70%. No AgentNetBench, a precisão por etapa aumenta de 64,1% para 69,3%. Nossos resultados demonstram que vídeos passivos da internet podem ser transformados em supervisão de alta qualidade para agentes de uso de computador, oferecendo uma alternativa escalável à anotação manual dispendiosa.
English
Training computer-use agents requires massive amounts of GUI interaction
data, but manually annotating action trajectories at scale is prohibitively
expensive. We present VideoAgentTrek, a scalable pipeline that automatically
mines training data from publicly available screen-recorded videos at web
scale, eliminating the need for manual annotation. Our approach addresses a key
challenge: raw videos contain implicit demonstrations but lack explicit action
labels. To solve this, we develop Video2Action, an inverse dynamics module
(IDM) with two components: (1) a video grounding model that detects and
localizes GUI actions with precise temporal boundaries and context, and (2) an
action-content recognizer that extracts structured parameters like click
coordinates and typed text with high fidelity. Applied to 39,000 YouTube
tutorial videos, our pipeline generates 1.52 million interaction steps
automatically. We leverage this data through continued pretraining followed by
supervised fine-tuning. On OSWorld-Verified, our approach improves task success
rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On
AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results
demonstrate that passive internet videos can be transformed into high-quality
supervision for computer-use agents, providing a scalable alternative to
expensive manual annotation.