ChatPaper.aiChatPaper

Kijk en Leer: Leren om Computers te Gebruiken via Online Video's

Watch and Learn: Learning to Use Computers from Online Videos

October 6, 2025
Auteurs: Chan Hee Song, Yiwen Song, Palash Goyal, Yu Su, Oriana Riva, Hamid Palangi, Tomas Pfister
cs.AI

Samenvatting

Computer use agents (CUAs) moeten taakworkflows plannen die zijn verankerd in diverse, voortdurend veranderende applicaties en omgevingen, maar het leren wordt belemmerd door het gebrek aan grootschalige, hoogwaardige trainingsdata in de doelapplicatie. Bestaande datasets zijn domeinspecifiek, statisch en kostbaar om te annoteren, terwijl huidige methoden voor synthetische datageneratie vaak simplistische of verkeerd uitgelijnde taakdemonstraties opleveren. Om deze beperkingen aan te pakken, introduceren we Watch & Learn (W&L), een framework dat menselijke demonstratievideo's die gemakkelijk beschikbaar zijn op het internet, op grote schaal omzet in uitvoerbare UI-trajecten. In plaats van direct trajecten te genereren of te vertrouwen op ad hoc redeneerheuristieken, formuleren we het probleem als een inverse dynamiek-doelstelling: het voorspellen van de actie van de gebruiker op basis van opeenvolgende schermtoestanden. Deze formulering vermindert handmatige engineering, is gemakkelijker te leren en generaliseert robuuster over applicaties heen. Concreet ontwikkelen we een inverse dynamiek-labelingpijplijn met taakbewuste videoretrieval, genereren we meer dan 53k hoogwaardige trajecten uit ruwe webvideo's, en tonen we aan dat deze trajecten CUAs verbeteren, zowel als in-context demonstraties als als begeleide trainingsdata. Op de uitdagende OSWorld-benchmark verbeteren UI-trajecten die met W&L zijn geëxtraheerd, zowel algemene als state-of-the-art frameworks in-context, en leveren ze sterkere verbeteringen op voor open-source modellen onder begeleide training. Deze resultaten benadrukken web-schaal menselijke demonstratievideo's als een praktische en schaalbare basis voor het bevorderen van CUAs naar real-world implementatie.
English
Computer use agents (CUAs) need to plan task workflows grounded in diverse, ever-changing applications and environments, but learning is hindered by the scarcity of large-scale, high-quality training data in the target application. Existing datasets are domain-specific, static, and costly to annotate, while current synthetic data generation methods often yield simplistic or misaligned task demonstrations. To address these limitations, we introduce Watch & Learn (W&L), a framework that converts human demonstration videos readily available on the Internet into executable UI trajectories at scale. Instead of directly generating trajectories or relying on ad hoc reasoning heuristics, we cast the problem as an inverse dynamics objective: predicting the user's action from consecutive screen states. This formulation reduces manual engineering, is easier to learn, and generalizes more robustly across applications. Concretely, we develop an inverse dynamics labeling pipeline with task-aware video retrieval, generate over 53k high-quality trajectories from raw web videos, and demonstrate that these trajectories improve CUAs both as in-context demonstrations and as supervised training data. On the challenging OSWorld benchmark, UI trajectories extracted with W&L consistently enhance both general-purpose and state-of-the-art frameworks in-context, and deliver stronger gains for open-source models under supervised training. These results highlight web-scale human demonstration videos as a practical and scalable foundation for advancing CUAs towards real-world deployment.
PDF102October 7, 2025