VideoAgentTrek: Предварительное обучение компьютера на основе немаркированных видеоданных

Аннотация

Обучение агентов для работы с компьютерами требует огромного количества данных о взаимодействии с графическим интерфейсом пользователя (GUI), однако ручная аннотация траекторий действий в больших масштабах является чрезмерно дорогостоящей. Мы представляем VideoAgentTrek — масштабируемый конвейер, который автоматически извлекает обучающие данные из общедоступных видеозаписей экрана в интернете, устраняя необходимость в ручной аннотации. Наш подход решает ключевую проблему: исходные видеозаписи содержат неявные демонстрации, но не имеют явных меток действий. Для решения этой задачи мы разработали Video2Action — модуль обратной динамики (IDM), состоящий из двух компонентов: (1) модели локализации в видео, которая обнаруживает и определяет действия в GUI с точными временными границами и контекстом, и (2) распознавателя содержимого действий, который извлекает структурированные параметры, такие как координаты кликов и введённый текст, с высокой точностью. Применённый к 39 000 обучающих видео на YouTube, наш конвейер автоматически генерирует 1,52 миллиона шагов взаимодействия. Мы используем эти данные через дополнительное предобучение с последующей контролируемой тонкой настройкой. На OSWorld-Verified наш подход повышает успешность выполнения задач с 9,3% (базовый уровень только с тонкой настройкой) до 15,8%, что составляет относительное улучшение на 70%. На AgentNetBench точность шагов увеличивается с 64,1% до 69,3%. Наши результаты демонстрируют, что пассивные интернет-видео могут быть преобразованы в высококачественные данные для обучения агентов, работающих с компьютерами, предоставляя масштабируемую альтернативу дорогостоящей ручной аннотации.

English

Training computer-use agents requires massive amounts of GUI interaction data, but manually annotating action trajectories at scale is prohibitively expensive. We present VideoAgentTrek, a scalable pipeline that automatically mines training data from publicly available screen-recorded videos at web scale, eliminating the need for manual annotation. Our approach addresses a key challenge: raw videos contain implicit demonstrations but lack explicit action labels. To solve this, we develop Video2Action, an inverse dynamics module (IDM) with two components: (1) a video grounding model that detects and localizes GUI actions with precise temporal boundaries and context, and (2) an action-content recognizer that extracts structured parameters like click coordinates and typed text with high fidelity. Applied to 39,000 YouTube tutorial videos, our pipeline generates 1.52 million interaction steps automatically. We leverage this data through continued pretraining followed by supervised fine-tuning. On OSWorld-Verified, our approach improves task success rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results demonstrate that passive internet videos can be transformed into high-quality supervision for computer-use agents, providing a scalable alternative to expensive manual annotation.

VideoAgentTrek: Предварительное обучение компьютера на основе немаркированных видеоданных

VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

Аннотация

Support