ChatPaper.aiChatPaper

VideoWorld 2 : Apprentissage de connaissances transférables à partir de vidéos du monde réel

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

February 10, 2026
papers.authors: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI

papers.abstract

L’acquisition de connaissances transférables à partir de vidéos non annotées et leur application dans de nouveaux environnements constituent une capacité fondamentale des agents intelligents. Ce travail présente VideoWorld 2, qui étend VideoWorld et propose la première étude sur l’apprentissage de connaissances transférables directement à partir de vidéos brutes du monde réel. Au cœur de VideoWorld 2 se trouve un modèle de dynamique latente à renforcement dynamique (dLDM) qui dissocie la dynamique des actions de l’apparence visuelle : un modèle de diffusion vidéo préentraîné gère la modélisation de l’apparence visuelle, permettant au dLDM d’apprendre des codes latents centrés sur des dynamiques compactes et significatives liées à la tâche. Ces codes latents sont ensuite modélisés de manière autorégressive pour apprendre des politiques de tâches et supporter un raisonnement à long terme. Nous évaluons VideoWorld 2 sur des tâches complexes de fabrication artisanale du monde réel, où les modèles précédents de génération vidéo et de dynamique latente peinent à fonctionner de manière fiable. Remarquablement, VideoWorld 2 amène jusqu’à 70 % d’amélioration du taux de réussite des tâches et produit des vidéos d’exécution longues et cohérentes. En robotique, nous montrons que VideoWorld 2 peut acquérir des connaissances efficaces en manipulation à partir du jeu de données Open-X, ce qui améliore considérablement les performances des tâches sur CALVIN. Cette étude révèle le potentiel de l’apprentissage de connaissances mondaines transférables directement à partir de vidéos brutes. L’ensemble du code, des données et des modèles sera ouvert afin de favoriser de futures recherches.
English
Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.
PDF101February 12, 2026