VideoWorld 2: 実世界映像から転移可能な知識を学習する
VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
February 10, 2026
著者: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI
要旨
ラベルのない映像データから転移可能な知識を学習し、新たな環境に適用することは、知的エージェントの基本的な能力である。本研究はVideoWorld 2を提案し、未加工の実世界映像から直接転移可能な知識を学習する初の試みを提示する。その中核には、動的拡張潜在力学モデル(dLDM)を導入し、行動の力学を視覚的外観から分離する。事前学習済みのビデオ拡散モデルが視覚的外観のモデリングを担当し、dLDMがコンパクトで意味のあるタスク関連の力学に焦点を当てた潜在コードを学習することを可能にする。これらの潜在コードは自己回帰的にモデル化され、タスク方策の学習と長期的な推論をサポートする。VideoWorld 2を困難な実世界の手作業タスクで評価した結果、従来のビデオ生成モデルや潜在力学モデルが信頼性高く動作できない場面において、最大70%のタスク成功率向上と一貫性のある長い実行ビデオの生成を達成した。ロボティクス分野では、VideoWorld 2がOpen-Xデータセットから効果的な操作知識を獲得し、CALVINにおけるタスク性能を大幅に向上させることを示す。本研究は、未加工の映像から直接転移可能な世界知識を学習する可能性を明らかにし、すべてのコード、データ、モデルをさらなる研究のためにオープンソース化する予定である。
English
Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.