VideoAgentTrek : Prétraitement informatique à partir de vidéos non étiquetées
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
October 22, 2025
papers.authors: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI
papers.abstract
L'entraînement d'agents d'utilisation informatique nécessite des quantités massives de données d'interaction avec les interfaces graphiques (GUI), mais l'annotation manuelle des trajectoires d'actions à grande échelle est prohibitivement coûteuse. Nous présentons VideoAgentTrek, un pipeline évolutif qui extrait automatiquement des données d'entraînement à partir de vidéos enregistrées d'écran disponibles publiquement à l'échelle du web, éliminant ainsi le besoin d'annotation manuelle. Notre approche résout un défi majeur : les vidéos brutes contiennent des démonstrations implicites mais manquent d'étiquettes d'actions explicites. Pour y remédier, nous développons Video2Action, un module de dynamique inverse (IDM) composé de deux éléments : (1) un modèle de localisation vidéo qui détecte et localise les actions sur l'interface graphique avec des limites temporelles précises et un contexte, et (2) un reconnaisseur de contenu d'action qui extrait des paramètres structurés, tels que les coordonnées de clic et le texte saisi, avec une grande fidélité. Appliqué à 39 000 vidéos tutoriels YouTube, notre pipeline génère automatiquement 1,52 million d'étapes d'interaction. Nous exploitons ces données par un pré-entraînement continu suivi d'un ajustement fin supervisé. Sur OSWorld-Verified, notre approche améliore les taux de réussite des tâches de 9,3 % (base SFT uniquement) à 15,8 %, soit une amélioration relative de 70 %. Sur AgentNetBench, la précision des étapes passe de 64,1 % à 69,3 %. Nos résultats démontrent que les vidéos passives sur internet peuvent être transformées en supervision de haute qualité pour les agents d'utilisation informatique, offrant une alternative évolutive à l'annotation manuelle coûteuse.
English
Training computer-use agents requires massive amounts of GUI interaction
data, but manually annotating action trajectories at scale is prohibitively
expensive. We present VideoAgentTrek, a scalable pipeline that automatically
mines training data from publicly available screen-recorded videos at web
scale, eliminating the need for manual annotation. Our approach addresses a key
challenge: raw videos contain implicit demonstrations but lack explicit action
labels. To solve this, we develop Video2Action, an inverse dynamics module
(IDM) with two components: (1) a video grounding model that detects and
localizes GUI actions with precise temporal boundaries and context, and (2) an
action-content recognizer that extracts structured parameters like click
coordinates and typed text with high fidelity. Applied to 39,000 YouTube
tutorial videos, our pipeline generates 1.52 million interaction steps
automatically. We leverage this data through continued pretraining followed by
supervised fine-tuning. On OSWorld-Verified, our approach improves task success
rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On
AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results
demonstrate that passive internet videos can be transformed into high-quality
supervision for computer-use agents, providing a scalable alternative to
expensive manual annotation.