ChatPaper.aiChatPaper

VideoWorld 2: Aprendizaje de Conocimiento Transferible a partir de Vídeos del Mundo Real

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

February 10, 2026
Autores: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI

Resumen

Aprender conocimientos transferibles a partir de datos de vídeo no etiquetados y aplicarlos en nuevos entornos es una capacidad fundamental de los agentes inteligentes. Este trabajo presenta VideoWorld 2, que extiende VideoWorld y ofrece la primera investigación sobre el aprendizaje de conocimientos transferibles directamente a partir de vídeos reales en bruto. En esencia, VideoWorld 2 introduce un Modelo de Dinámicas Latentes de dinámica mejorada (dLDM) que desacopla la dinámica de las acciones de la apariencia visual: un modelo de difusión de vídeo preentrenado se encarga del modelado de la apariencia visual, permitiendo que el dLDM aprenda códigos latentes que se centran en dinámicas compactas y significativas relacionadas con la tarea. Estos códigos latentes se modelan luego de forma autorregresiva para aprender políticas de tareas y apoyar el razonamiento de largo horizonte. Evaluamos VideoWorld 2 en desafiantes tareas reales de creación manual, donde los modelos previos de generación de vídeo y de dinámicas latentes tienen dificultades para operar de forma fiable. Notablemente, VideoWorld 2 logra una mejora de hasta el 70% en la tasa de éxito de las tareas y produce vídeos de ejecución larga coherentes. En robótica, mostramos que VideoWorld 2 puede adquirir conocimientos de manipulación efectivos a partir del conjunto de datos Open-X, lo que mejora sustancialmente el rendimiento de las tareas en CALVIN. Este estudio revela el potencial de aprender conocimiento del mundo transferible directamente a partir de vídeos en bruto, y todo el código, datos y modelos se publicarán como código abierto para futuras investigaciones.
English
Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.
PDF101February 12, 2026