VideoAgentTrek: Computerbasierte Vorabschulung mit nicht annotierten Videos
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
October 22, 2025
papers.authors: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI
papers.abstract
Das Training von Computer-Nutzungsagenten erfordert enorme Mengen an GUI-Interaktionsdaten, doch die manuelle Annotation von Aktionspfaden in großem Maßstab ist unverhältnismäßig teuer. Wir präsentieren VideoAgentTrek, eine skalierbare Pipeline, die automatisch Trainingsdaten aus öffentlich verfügbaren Bildschirmaufzeichnungen im Webmaßstab extrahiert und somit die Notwendigkeit manueller Annotation eliminiert. Unser Ansatz adressiert eine zentrale Herausforderung: Rohvideos enthalten implizite Demonstrationen, aber es fehlen explizite Aktionslabels. Um dies zu lösen, entwickeln wir Video2Action, ein inverses Dynamikmodul (IDM) mit zwei Komponenten: (1) ein Video-Grounding-Modell, das GUI-Aktionen mit präzisen zeitlichen Grenzen und Kontext detektiert und lokalisiert, und (2) ein Aktionsinhaltserkennungsmodul, das strukturierte Parameter wie Klickkoordinaten und eingegebenen Text mit hoher Genauigkeit extrahiert. Angewendet auf 39.000 YouTube-Tutorialvideos generiert unsere Pipeline automatisch 1,52 Millionen Interaktionsschritte. Wir nutzen diese Daten durch fortgesetztes Vortraining gefolgt von überwachtem Feinabstimmen. Auf OSWorld-Verified verbessert unser Ansatz die Aufgaben-Erfolgsrate von 9,3 % (nur SFT-Baseline) auf 15,8 %, was einer relativen Verbesserung von 70 % entspricht. Auf AgentNetBench steigt die Schrittgenauigkeit von 64,1 % auf 69,3 %. Unsere Ergebnisse zeigen, dass passive Internetvideos in hochwertige Überwachungsdaten für Computer-Nutzungsagenten umgewandelt werden können und somit eine skalierbare Alternative zur kostspieligen manuellen Annotation bieten.
English
Training computer-use agents requires massive amounts of GUI interaction
data, but manually annotating action trajectories at scale is prohibitively
expensive. We present VideoAgentTrek, a scalable pipeline that automatically
mines training data from publicly available screen-recorded videos at web
scale, eliminating the need for manual annotation. Our approach addresses a key
challenge: raw videos contain implicit demonstrations but lack explicit action
labels. To solve this, we develop Video2Action, an inverse dynamics module
(IDM) with two components: (1) a video grounding model that detects and
localizes GUI actions with precise temporal boundaries and context, and (2) an
action-content recognizer that extracts structured parameters like click
coordinates and typed text with high fidelity. Applied to 39,000 YouTube
tutorial videos, our pipeline generates 1.52 million interaction steps
automatically. We leverage this data through continued pretraining followed by
supervised fine-tuning. On OSWorld-Verified, our approach improves task success
rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On
AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results
demonstrate that passive internet videos can be transformed into high-quality
supervision for computer-use agents, providing a scalable alternative to
expensive manual annotation.