VideoAgentTrek: Предварительное обучение компьютера на основе немаркированных видеоданных
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
October 22, 2025
Авторы: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI
Аннотация
Обучение агентов для работы с компьютерами требует огромного количества данных о взаимодействии с графическим интерфейсом пользователя (GUI), однако ручная аннотация траекторий действий в больших масштабах является чрезмерно дорогостоящей. Мы представляем VideoAgentTrek — масштабируемый конвейер, который автоматически извлекает обучающие данные из общедоступных видеозаписей экрана в интернете, устраняя необходимость в ручной аннотации. Наш подход решает ключевую проблему: исходные видеозаписи содержат неявные демонстрации, но не имеют явных меток действий. Для решения этой задачи мы разработали Video2Action — модуль обратной динамики (IDM), состоящий из двух компонентов: (1) модели локализации в видео, которая обнаруживает и определяет действия в GUI с точными временными границами и контекстом, и (2) распознавателя содержимого действий, который извлекает структурированные параметры, такие как координаты кликов и введённый текст, с высокой точностью. Применённый к 39 000 обучающих видео на YouTube, наш конвейер автоматически генерирует 1,52 миллиона шагов взаимодействия. Мы используем эти данные через дополнительное предобучение с последующей контролируемой тонкой настройкой. На OSWorld-Verified наш подход повышает успешность выполнения задач с 9,3% (базовый уровень только с тонкой настройкой) до 15,8%, что составляет относительное улучшение на 70%. На AgentNetBench точность шагов увеличивается с 64,1% до 69,3%. Наши результаты демонстрируют, что пассивные интернет-видео могут быть преобразованы в высококачественные данные для обучения агентов, работающих с компьютерами, предоставляя масштабируемую альтернативу дорогостоящей ручной аннотации.
English
Training computer-use agents requires massive amounts of GUI interaction
data, but manually annotating action trajectories at scale is prohibitively
expensive. We present VideoAgentTrek, a scalable pipeline that automatically
mines training data from publicly available screen-recorded videos at web
scale, eliminating the need for manual annotation. Our approach addresses a key
challenge: raw videos contain implicit demonstrations but lack explicit action
labels. To solve this, we develop Video2Action, an inverse dynamics module
(IDM) with two components: (1) a video grounding model that detects and
localizes GUI actions with precise temporal boundaries and context, and (2) an
action-content recognizer that extracts structured parameters like click
coordinates and typed text with high fidelity. Applied to 39,000 YouTube
tutorial videos, our pipeline generates 1.52 million interaction steps
automatically. We leverage this data through continued pretraining followed by
supervised fine-tuning. On OSWorld-Verified, our approach improves task success
rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On
AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results
demonstrate that passive internet videos can be transformed into high-quality
supervision for computer-use agents, providing a scalable alternative to
expensive manual annotation.