ChatPaper.aiChatPaper

VideoAgentTrek: Pretrenamiento en Uso de Computadoras a partir de Vídeos sin Etiquetar

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

October 22, 2025
Autores: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI

Resumen

Entrenar agentes de uso informático requiere grandes cantidades de datos de interacción con interfaces gráficas de usuario (GUI), pero anotar manualmente trayectorias de acciones a gran escala es prohibitivamente costoso. Presentamos VideoAgentTrek, una canalización escalable que extrae automáticamente datos de entrenamiento de videos grabados de pantalla disponibles públicamente a escala web, eliminando la necesidad de anotación manual. Nuestro enfoque aborda un desafío clave: los videos en bruto contienen demostraciones implícitas pero carecen de etiquetas explícitas de acciones. Para resolver esto, desarrollamos Video2Action, un módulo de dinámica inversa (IDM) con dos componentes: (1) un modelo de anclaje de video que detecta y localiza acciones en la GUI con límites temporales precisos y contexto, y (2) un reconocedor de contenido de acciones que extrae parámetros estructurados, como coordenadas de clic y texto tecleado, con alta fidelidad. Aplicado a 39,000 videos tutoriales de YouTube, nuestra canalización genera automáticamente 1.52 millones de pasos de interacción. Aprovechamos estos datos mediante un preentrenamiento continuo seguido de un ajuste fino supervisado. En OSWorld-Verified, nuestro enfoque mejora las tasas de éxito de tareas del 9.3% (línea base solo con ajuste fino) al 15.8%, una mejora relativa del 70%. En AgentNetBench, la precisión por paso aumenta del 64.1% al 69.3%. Nuestros resultados demuestran que los videos pasivos de internet pueden transformarse en supervisión de alta calidad para agentes de uso informático, proporcionando una alternativa escalable a la costosa anotación manual.
English
Training computer-use agents requires massive amounts of GUI interaction data, but manually annotating action trajectories at scale is prohibitively expensive. We present VideoAgentTrek, a scalable pipeline that automatically mines training data from publicly available screen-recorded videos at web scale, eliminating the need for manual annotation. Our approach addresses a key challenge: raw videos contain implicit demonstrations but lack explicit action labels. To solve this, we develop Video2Action, an inverse dynamics module (IDM) with two components: (1) a video grounding model that detects and localizes GUI actions with precise temporal boundaries and context, and (2) an action-content recognizer that extracts structured parameters like click coordinates and typed text with high fidelity. Applied to 39,000 YouTube tutorial videos, our pipeline generates 1.52 million interaction steps automatically. We leverage this data through continued pretraining followed by supervised fine-tuning. On OSWorld-Verified, our approach improves task success rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results demonstrate that passive internet videos can be transformed into high-quality supervision for computer-use agents, providing a scalable alternative to expensive manual annotation.
PDF162October 23, 2025