VideoAgentTrek: Pre-addestramento per l'uso del computer da video non etichettati

Abstract

L'addestramento di agenti per l'uso del computer richiede grandi quantità di dati di interazione con le GUI, ma l'annotazione manuale delle traiettorie delle azioni su larga scala è proibitivamente costosa. Presentiamo VideoAgentTrek, una pipeline scalabile che estrae automaticamente dati di addestramento da video registrati pubblicamente su larga scala, eliminando la necessità di annotazione manuale. Il nostro approccio affronta una sfida chiave: i video grezzi contengono dimostrazioni implicite ma mancano di etichette esplicite per le azioni. Per risolvere questo problema, sviluppiamo Video2Action, un modulo di dinamica inversa (IDM) con due componenti: (1) un modello di grounding video che rileva e localizza le azioni GUI con confini temporali e contesto precisi, e (2) un riconoscitore di contenuti azionali che estrae parametri strutturati come coordinate dei clic e testo digitato con alta fedeltà. Applicato a 39.000 video tutorial di YouTube, la nostra pipeline genera automaticamente 1,52 milioni di passi di interazione. Sfruttiamo questi dati attraverso un pre-addestramento continuo seguito da un fine-tuning supervisionato. Su OSWorld-Verified, il nostro approccio migliora i tassi di successo delle attività dal 9,3% (baseline solo SFT) al 15,8%, un miglioramento relativo del 70%. Su AgentNetBench, l'accuratezza dei passi aumenta dal 64,1% al 69,3%. I nostri risultati dimostrano che i video passivi su Internet possono essere trasformati in supervisione di alta qualità per agenti di uso del computer, fornendo un'alternativa scalabile alla costosa annotazione manuale.

English

Training computer-use agents requires massive amounts of GUI interaction data, but manually annotating action trajectories at scale is prohibitively expensive. We present VideoAgentTrek, a scalable pipeline that automatically mines training data from publicly available screen-recorded videos at web scale, eliminating the need for manual annotation. Our approach addresses a key challenge: raw videos contain implicit demonstrations but lack explicit action labels. To solve this, we develop Video2Action, an inverse dynamics module (IDM) with two components: (1) a video grounding model that detects and localizes GUI actions with precise temporal boundaries and context, and (2) an action-content recognizer that extracts structured parameters like click coordinates and typed text with high fidelity. Applied to 39,000 YouTube tutorial videos, our pipeline generates 1.52 million interaction steps automatically. We leverage this data through continued pretraining followed by supervised fine-tuning. On OSWorld-Verified, our approach improves task success rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results demonstrate that passive internet videos can be transformed into high-quality supervision for computer-use agents, providing a scalable alternative to expensive manual annotation.

VideoAgentTrek: Pre-addestramento per l'uso del computer da video non etichettati

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

Abstract

Support