Vid2World: 인터랙티브 월드 모델을 위한 비디오 확산 모델 구축
Vid2World: Crafting Video Diffusion Models to Interactive World Models
May 20, 2025
저자: Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long
cs.AI
초록
역사적 관찰과 행동 시퀀스를 기반으로 전이를 예측하는 월드 모델은 순차적 의사결정에서 데이터 효율성을 개선하는 데 큰 잠재력을 보여주고 있다. 그러나 기존의 월드 모델은 종종 광범위한 도메인 특화 학습을 필요로 하며, 여전히 낮은 충실도와 거친 예측을 생성함으로써 복잡한 환경에서의 적용 가능성을 제한하고 있다. 이와 대조적으로, 대규모 인터넷 규모 데이터셋으로 학습된 비디오 확산 모델은 다양한 실제 세계의 역동성을 포착하는 고품질 비디오를 생성하는 데 있어 인상적인 능력을 입증하였다. 본 연구에서는 사전 학습된 비디오 확산 모델을 활용하고 이를 인터랙티브 월드 모델로 전이시키는 일반적인 접근법인 Vid2World를 제안한다. Vid2World는 사전 학습된 비디오 확산 모델의 인과화를 수행하여, 그 아키텍처와 학습 목표를 조정함으로써 자기회귀적 생성을 가능하게 한다. 또한, 결과적으로 생성된 인터랙티브 월드 모델에서 행동 제어성을 강화하기 위해 인과적 행동 안내 메커니즘을 도입한다. 로봇 조작 및 게임 시뮬레이션 도메인에서의 광범위한 실험을 통해, 본 방법이 고성능 비디오 확산 모델을 인터랙티브 월드 모델로 재활용하는 데 있어 확장 가능하고 효과적인 접근법을 제공함을 입증하였다.
English
World models, which predict transitions based on history observation and
action sequences, have shown great promise in improving data efficiency for
sequential decision making. However, existing world models often require
extensive domain-specific training and still produce low-fidelity, coarse
predictions, limiting their applicability in complex environments. In contrast,
video diffusion models trained on large, internet-scale datasets have
demonstrated impressive capabilities in generating high-quality videos that
capture diverse real-world dynamics. In this work, we present Vid2World, a
general approach for leveraging and transferring pre-trained video diffusion
models into interactive world models. To bridge the gap, Vid2World performs
casualization of a pre-trained video diffusion model by crafting its
architecture and training objective to enable autoregressive generation.
Furthermore, it introduces a causal action guidance mechanism to enhance action
controllability in the resulting interactive world model. Extensive experiments
in robot manipulation and game simulation domains show that our method offers a
scalable and effective approach for repurposing highly capable video diffusion
models to interactive world models.Summary
AI-Generated Summary