보고 배우기: 온라인 비디오를 통해 컴퓨터 사용법 학습하기
Watch and Learn: Learning to Use Computers from Online Videos
October 6, 2025
저자: Chan Hee Song, Yiwen Song, Palash Goyal, Yu Su, Oriana Riva, Hamid Palangi, Tomas Pfister
cs.AI
초록
컴퓨터 사용 에이전트(CUAs)는 다양하고 끊임없이 변화하는 애플리케이션과 환경에 기반한 작업 워크플로를 계획해야 하지만, 대상 애플리케이션에서 대규모 고품질 학습 데이터의 부족으로 인해 학습이 방해받고 있습니다. 기존 데이터셋은 도메인 특화적이며 정적이고 주석을 달기 위한 비용이 많이 드는 반면, 현재의 합성 데이터 생성 방법은 단순하거나 잘못 정렬된 작업 데모를 생성하는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 인터넷에서 쉽게 구할 수 있는 인간 데모 비디오를 대규모로 실행 가능한 UI 궤적으로 변환하는 Watch & Learn(W&L) 프레임워크를 소개합니다. 궤적을 직접 생성하거나 임시 추론 휴리스틱에 의존하는 대신, 우리는 이 문제를 역역학 목표로 재구성합니다: 연속적인 화면 상태에서 사용자의 행동을 예측하는 것입니다. 이 공식화는 수동 엔지니어링을 줄이고 학습을 더 쉽게 하며 애플리케이션 간에 더 강력하게 일반화합니다. 구체적으로, 우리는 작업 인식 비디오 검색을 포함한 역역학 라벨링 파이프라인을 개발하고, 원시 웹 비디오에서 53,000개 이상의 고품질 궤적을 생성하며, 이러한 궤적이 CUAs를 컨텍스트 내 데모와 지도 학습 데이터로 개선한다는 것을 보여줍니다. 도전적인 OSWorld 벤치마크에서, W&L로 추출된 UI 궤적은 일반 목적 및 최첨단 프레임워크의 컨텍스트 내 성능을 지속적으로 향상시키고, 지도 학습 하에서 오픈소스 모델에 더 큰 이점을 제공합니다. 이러한 결과는 웹 규모의 인간 데모 비디오가 CUAs를 실제 배포로 나아가게 하는 실용적이고 확장 가능한 기반으로서의 잠재력을 강조합니다.
English
Computer use agents (CUAs) need to plan task workflows grounded in diverse,
ever-changing applications and environments, but learning is hindered by the
scarcity of large-scale, high-quality training data in the target application.
Existing datasets are domain-specific, static, and costly to annotate, while
current synthetic data generation methods often yield simplistic or misaligned
task demonstrations. To address these limitations, we introduce Watch & Learn
(W&L), a framework that converts human demonstration videos readily available
on the Internet into executable UI trajectories at scale. Instead of directly
generating trajectories or relying on ad hoc reasoning heuristics, we cast the
problem as an inverse dynamics objective: predicting the user's action from
consecutive screen states. This formulation reduces manual engineering, is
easier to learn, and generalizes more robustly across applications. Concretely,
we develop an inverse dynamics labeling pipeline with task-aware video
retrieval, generate over 53k high-quality trajectories from raw web videos, and
demonstrate that these trajectories improve CUAs both as in-context
demonstrations and as supervised training data. On the challenging OSWorld
benchmark, UI trajectories extracted with W&L consistently enhance both
general-purpose and state-of-the-art frameworks in-context, and deliver
stronger gains for open-source models under supervised training. These results
highlight web-scale human demonstration videos as a practical and scalable
foundation for advancing CUAs towards real-world deployment.