VideoAgentTrek: Pre-addestramento per l'uso del computer da video non etichettati
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
October 22, 2025
Autori: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI
Abstract
L'addestramento di agenti per l'uso del computer richiede grandi quantità di dati di interazione con le GUI, ma l'annotazione manuale delle traiettorie delle azioni su larga scala è proibitivamente costosa. Presentiamo VideoAgentTrek, una pipeline scalabile che estrae automaticamente dati di addestramento da video registrati pubblicamente su larga scala, eliminando la necessità di annotazione manuale. Il nostro approccio affronta una sfida chiave: i video grezzi contengono dimostrazioni implicite ma mancano di etichette esplicite per le azioni. Per risolvere questo problema, sviluppiamo Video2Action, un modulo di dinamica inversa (IDM) con due componenti: (1) un modello di grounding video che rileva e localizza le azioni GUI con confini temporali e contesto precisi, e (2) un riconoscitore di contenuti azionali che estrae parametri strutturati come coordinate dei clic e testo digitato con alta fedeltà. Applicato a 39.000 video tutorial di YouTube, la nostra pipeline genera automaticamente 1,52 milioni di passi di interazione. Sfruttiamo questi dati attraverso un pre-addestramento continuo seguito da un fine-tuning supervisionato. Su OSWorld-Verified, il nostro approccio migliora i tassi di successo delle attività dal 9,3% (baseline solo SFT) al 15,8%, un miglioramento relativo del 70%. Su AgentNetBench, l'accuratezza dei passi aumenta dal 64,1% al 69,3%. I nostri risultati dimostrano che i video passivi su Internet possono essere trasformati in supervisione di alta qualità per agenti di uso del computer, fornendo un'alternativa scalabile alla costosa annotazione manuale.
English
Training computer-use agents requires massive amounts of GUI interaction
data, but manually annotating action trajectories at scale is prohibitively
expensive. We present VideoAgentTrek, a scalable pipeline that automatically
mines training data from publicly available screen-recorded videos at web
scale, eliminating the need for manual annotation. Our approach addresses a key
challenge: raw videos contain implicit demonstrations but lack explicit action
labels. To solve this, we develop Video2Action, an inverse dynamics module
(IDM) with two components: (1) a video grounding model that detects and
localizes GUI actions with precise temporal boundaries and context, and (2) an
action-content recognizer that extracts structured parameters like click
coordinates and typed text with high fidelity. Applied to 39,000 YouTube
tutorial videos, our pipeline generates 1.52 million interaction steps
automatically. We leverage this data through continued pretraining followed by
supervised fine-tuning. On OSWorld-Verified, our approach improves task success
rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On
AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results
demonstrate that passive internet videos can be transformed into high-quality
supervision for computer-use agents, providing a scalable alternative to
expensive manual annotation.