Observa y Aprende: Aprendiendo a Usar Computadoras a través de Videos en Línea
Watch and Learn: Learning to Use Computers from Online Videos
October 6, 2025
Autores: Chan Hee Song, Yiwen Song, Palash Goyal, Yu Su, Oriana Riva, Hamid Palangi, Tomas Pfister
cs.AI
Resumen
Los agentes de uso informático (CUAs, por sus siglas en inglés) necesitan planificar flujos de trabajo de tareas basados en aplicaciones y entornos diversos y en constante cambio, pero el aprendizaje se ve obstaculizado por la escasez de datos de entrenamiento a gran escala y de alta calidad en la aplicación objetivo. Los conjuntos de datos existentes son específicos de dominio, estáticos y costosos de anotar, mientras que los métodos actuales de generación de datos sintéticos a menudo producen demostraciones de tareas simplistas o desalineadas. Para abordar estas limitaciones, presentamos Watch & Learn (W&L), un marco que convierte videos de demostración humana fácilmente disponibles en Internet en trayectorias ejecutables de interfaz de usuario (UI) a gran escala. En lugar de generar trayectorias directamente o depender de heurísticas de razonamiento ad hoc, planteamos el problema como un objetivo de dinámica inversa: predecir la acción del usuario a partir de estados consecutivos de la pantalla. Esta formulación reduce la ingeniería manual, es más fácil de aprender y generaliza de manera más robusta en diversas aplicaciones. Concretamente, desarrollamos una canalización de etiquetado de dinámica inversa con recuperación de videos consciente de la tarea, generamos más de 53k trayectorias de alta calidad a partir de videos web en bruto, y demostramos que estas trayectorias mejoran los CUAs tanto como demostraciones en contexto como datos de entrenamiento supervisado. En el desafiante benchmark OSWorld, las trayectorias de UI extraídas con W&L mejoran consistentemente tanto los marcos de propósito general como los de vanguardia en contexto, y ofrecen mayores ganancias para modelos de código abierto bajo entrenamiento supervisado. Estos resultados destacan los videos de demostración humana a escala web como una base práctica y escalable para avanzar hacia la implementación en el mundo real de los CUAs.
English
Computer use agents (CUAs) need to plan task workflows grounded in diverse,
ever-changing applications and environments, but learning is hindered by the
scarcity of large-scale, high-quality training data in the target application.
Existing datasets are domain-specific, static, and costly to annotate, while
current synthetic data generation methods often yield simplistic or misaligned
task demonstrations. To address these limitations, we introduce Watch & Learn
(W&L), a framework that converts human demonstration videos readily available
on the Internet into executable UI trajectories at scale. Instead of directly
generating trajectories or relying on ad hoc reasoning heuristics, we cast the
problem as an inverse dynamics objective: predicting the user's action from
consecutive screen states. This formulation reduces manual engineering, is
easier to learn, and generalizes more robustly across applications. Concretely,
we develop an inverse dynamics labeling pipeline with task-aware video
retrieval, generate over 53k high-quality trajectories from raw web videos, and
demonstrate that these trajectories improve CUAs both as in-context
demonstrations and as supervised training data. On the challenging OSWorld
benchmark, UI trajectories extracted with W&L consistently enhance both
general-purpose and state-of-the-art frameworks in-context, and deliver
stronger gains for open-source models under supervised training. These results
highlight web-scale human demonstration videos as a practical and scalable
foundation for advancing CUAs towards real-world deployment.