VideoAgentTrek: ラベルなし動画からのコンピュータ利用事前学習
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
October 22, 2025
著者: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI
要旨
コンピュータ利用エージェントのトレーニングには大量のGUIインタラクションデータが必要ですが、大規模なアクショントラジェクトリの手動アノテーションは非常にコストがかかります。本論文では、公開されているスクリーン録画動画から自動的にトレーニングデータを抽出するスケーラブルなパイプライン「VideoAgentTrek」を提案し、手動アノテーションの必要性を排除します。このアプローチは、生の動画が暗黙的なデモンストレーションを含むものの明示的なアクションラベルを欠いているという重要な課題に対処します。これを解決するため、逆ダイナミクスモジュール(IDM)である「Video2Action」を開発しました。これは2つのコンポーネントで構成されます:(1)GUIアクションを検出し、正確な時間的境界とコンテキストでローカライズするビデオグラウンディングモデル、(2)クリック座標や入力テキストなどの構造化されたパラメータを高精度で抽出するアクションコンテンツ認識器です。39,000本のYouTubeチュートリアル動画に適用した結果、このパイプラインは自動的に152万のインタラクションステップを生成しました。このデータを活用するため、継続的な事前学習とそれに続く教師ありファインチューニングを行いました。OSWorld-Verifiedでは、タスク成功率が9.3%(SFTのみのベースライン)から15.8%に向上し、70%の相対的改善を示しました。AgentNetBenchでは、ステップ精度が64.1%から69.3%に向上しました。これらの結果は、受動的なインターネット動画がコンピュータ利用エージェントのための高品質な教師データに変換可能であり、高コストな手動アノテーションに代わるスケーラブルな代替手段を提供することを実証しています。
English
Training computer-use agents requires massive amounts of GUI interaction
data, but manually annotating action trajectories at scale is prohibitively
expensive. We present VideoAgentTrek, a scalable pipeline that automatically
mines training data from publicly available screen-recorded videos at web
scale, eliminating the need for manual annotation. Our approach addresses a key
challenge: raw videos contain implicit demonstrations but lack explicit action
labels. To solve this, we develop Video2Action, an inverse dynamics module
(IDM) with two components: (1) a video grounding model that detects and
localizes GUI actions with precise temporal boundaries and context, and (2) an
action-content recognizer that extracts structured parameters like click
coordinates and typed text with high fidelity. Applied to 39,000 YouTube
tutorial videos, our pipeline generates 1.52 million interaction steps
automatically. We leverage this data through continued pretraining followed by
supervised fine-tuning. On OSWorld-Verified, our approach improves task success
rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On
AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results
demonstrate that passive internet videos can be transformed into high-quality
supervision for computer-use agents, providing a scalable alternative to
expensive manual annotation.