VideoWorld 2: 실제 영상으로부터 전이 가능한 지식 학습하기
VideoWorld 2: Learning Transferable Knowledge from Real-world Videos
February 10, 2026
저자: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI
초록
레이블이 없는 비디오 데이터에서 전이 가능한 지식을 학습하고 새로운 환경에 적용하는 것은 지능형 에이전트의 기본적인 능력입니다. 본 연구는 VideoWorld를 확장한 VideoWorld 2를 소개하며, 원시(raw) 실세계 비디오로부터 직접 전이 가능한 지식을 학습하는 최초의 연구를 제시합니다. VideoWorld 2의 핵심은 동작 역학을 시각적 외관으로부터 분리하는 동적 향상 잠재 역학 모델(dLDM)을 도입한 것입니다. 사전 학습된 비디오 확산 모델이 시각적 외관 모델링을 처리하여 dLDM이 간결하고 의미 있는 작업 관련 역학에 집중하는 잠재 코드를 학습할 수 있게 합니다. 이러한 잠재 코드는 자동회귀적으로 모델링되어 작업 정책을 학습하고 장기간 추론을 지원합니다. 우리는 VideoWorld 2를 기존의 비디오 생성 및 잠재 역학 모델들이 안정적으로 작동하기 어려운 난이도 높은 실세계 수공예 제작 작업에서 평가합니다. 주목할 만하게도, VideoWorld 2는 작업 성공률에서 최대 70% 향상을 달성하고 일관된 장기 실행 비디오를 생성합니다. 로보틱스 분야에서는 VideoWorld 2가 Open-X 데이터셋으로부터 효과적인 조작 지식을 습득하여 CALVIN에서의 작업 성능을 크게 향상시킬 수 있음을 보여줍니다. 본 연구는 원시 비디오로부터 직접 전이 가능한 세계 지식을 학습하는 잠재력을 보여주며, 모든 코드, 데이터 및 모델은 추가 연구를 위해 공개될 예정입니다.
English
Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.