ChatPaper.aiChatPaper

VideoAgentTrek: Computergebruik Vooraf Trainen met Ongelabelde Video's

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

October 22, 2025
Auteurs: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI

Samenvatting

Het trainen van computergebruik-agents vereist enorme hoeveelheden GUI-interactiedata, maar het handmatig annoteren van actietrajecten op grote schaal is onbetaalbaar duur. Wij presenteren VideoAgentTrek, een schaalbare pijplijn die automatisch trainingsdata uit openbaar beschikbare schermopnamevideo's op webschaal haalt, waardoor de noodzaak voor handmatige annotatie wordt geëlimineerd. Onze aanpak lost een belangrijke uitdaging op: ruwe video's bevatten impliciete demonstraties maar missen expliciete actielabels. Om dit op te lossen, ontwikkelen we Video2Action, een inverse dynamiekmodule (IDM) met twee componenten: (1) een videogroundingmodel dat GUI-acties detecteert en lokaliseert met precieze temporele grenzen en context, en (2) een actie-inhoudherkenner die gestructureerde parameters zoals klikcoördinaten en getypte tekst met hoge nauwkeurigheid extraheert. Toegepast op 39.000 YouTube-tutorialvideo's genereert onze pijplijn automatisch 1,52 miljoen interactiestappen. We benutten deze data door middel van voortgezette pretraining gevolgd door supervised fine-tuning. Op OSWorld-Verified verbetert onze aanpak de taak-succespercentages van 9,3% (alleen SFT-baseline) naar 15,8%, een relatieve verbetering van 70%. Op AgentNetBench neemt de stapnauwkeurigheid toe van 64,1% naar 69,3%. Onze resultaten tonen aan dat passieve internetvideo's kunnen worden omgezet in hoogwaardige supervisie voor computergebruik-agents, wat een schaalbare alternatief biedt voor dure handmatige annotatie.
English
Training computer-use agents requires massive amounts of GUI interaction data, but manually annotating action trajectories at scale is prohibitively expensive. We present VideoAgentTrek, a scalable pipeline that automatically mines training data from publicly available screen-recorded videos at web scale, eliminating the need for manual annotation. Our approach addresses a key challenge: raw videos contain implicit demonstrations but lack explicit action labels. To solve this, we develop Video2Action, an inverse dynamics module (IDM) with two components: (1) a video grounding model that detects and localizes GUI actions with precise temporal boundaries and context, and (2) an action-content recognizer that extracts structured parameters like click coordinates and typed text with high fidelity. Applied to 39,000 YouTube tutorial videos, our pipeline generates 1.52 million interaction steps automatically. We leverage this data through continued pretraining followed by supervised fine-tuning. On OSWorld-Verified, our approach improves task success rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results demonstrate that passive internet videos can be transformed into high-quality supervision for computer-use agents, providing a scalable alternative to expensive manual annotation.
PDF162October 23, 2025