VideoAgentTrek: 레이블 없는 비디오를 통한 컴퓨터 사용 사전 학습
VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos
October 22, 2025
저자: Dunjie Lu, Yiheng Xu, Junli Wang, Haoyuan Wu, Xinyuan Wang, Zekun Wang, Junlin Yang, Hongjin Su, Jixuan Chen, Junda Chen, Yuchen Mao, Jingren Zhou, Junyang Lin, Binyuan Hui, Tao Yu
cs.AI
초록
컴퓨터 사용 에이전트를 훈련시키기 위해서는 대규모의 GUI 상호작용 데이터가 필요하지만, 대규모로 동작 궤적을 수동으로 주석 처리하는 것은 비용적으로 매우 부담스럽습니다. 우리는 VideoAgentTrek을 제안합니다. 이는 웹 규모로 공개적으로 이용 가능한 화면 녹화 비디오에서 자동으로 훈련 데이터를 추출하는 확장 가능한 파이프라인으로, 수동 주석의 필요성을 제거합니다. 우리의 접근 방식은 핵심적인 문제를 해결합니다: 원시 비디오는 암묵적인 시연을 포함하지만 명시적인 동작 레이블이 부족합니다. 이를 해결하기 위해, 우리는 Video2Action을 개발했습니다. 이는 두 가지 구성 요소로 이루어진 역동학 모듈(IDM)입니다: (1) 정확한 시간적 경계와 컨텍스트를 통해 GUI 동작을 탐지하고 위치를 파악하는 비디오 그라운딩 모델, 그리고 (2) 클릭 좌표와 입력된 텍스트와 같은 구조화된 매개변수를 높은 정확도로 추출하는 동작-내용 인식기입니다. 39,000개의 YouTube 튜토리얼 비디오에 적용하여, 우리의 파이프라인은 152만 개의 상호작용 단계를 자동으로 생성합니다. 우리는 이 데이터를 지속적인 사전 훈련과 지도 미세 조정을 통해 활용합니다. OSWorld-Verified에서, 우리의 접근 방식은 작업 성공률을 9.3%(SFT-only 기준)에서 15.8%로 향상시켰으며, 이는 70%의 상대적 개선입니다. AgentNetBench에서는 단계 정확도가 64.1%에서 69.3%로 증가했습니다. 우리의 결과는 수동적인 인터넷 비디오가 컴퓨터 사용 에이전트를 위한 고품질의 감독 데이터로 변환될 수 있음을 보여주며, 비용이 많이 드는 수동 주석에 대한 확장 가능한 대안을 제공합니다.
English
Training computer-use agents requires massive amounts of GUI interaction
data, but manually annotating action trajectories at scale is prohibitively
expensive. We present VideoAgentTrek, a scalable pipeline that automatically
mines training data from publicly available screen-recorded videos at web
scale, eliminating the need for manual annotation. Our approach addresses a key
challenge: raw videos contain implicit demonstrations but lack explicit action
labels. To solve this, we develop Video2Action, an inverse dynamics module
(IDM) with two components: (1) a video grounding model that detects and
localizes GUI actions with precise temporal boundaries and context, and (2) an
action-content recognizer that extracts structured parameters like click
coordinates and typed text with high fidelity. Applied to 39,000 YouTube
tutorial videos, our pipeline generates 1.52 million interaction steps
automatically. We leverage this data through continued pretraining followed by
supervised fine-tuning. On OSWorld-Verified, our approach improves task success
rates from 9.3% (SFT-only baseline) to 15.8%, a 70% relative improvement. On
AgentNetBench, step accuracy increases from 64.1% to 69.3%. Our results
demonstrate that passive internet videos can be transformed into high-quality
supervision for computer-use agents, providing a scalable alternative to
expensive manual annotation.