Vid2World: Desenvolvendo Modelos de Difusão de Vídeo para Modelos de Mundo Interativos
Vid2World: Crafting Video Diffusion Models to Interactive World Models
May 20, 2025
Autores: Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long
cs.AI
Resumo
Modelos de mundo, que preveem transições com base em sequências de observações e ações históricas, têm mostrado grande potencial para melhorar a eficiência de dados na tomada de decisões sequenciais. No entanto, os modelos de mundo existentes frequentemente exigem treinamento extensivo específico do domínio e ainda produzem previsões de baixa fidelidade e grosseiras, limitando sua aplicabilidade em ambientes complexos. Em contraste, modelos de difusão de vídeo treinados em grandes conjuntos de dados em escala da internet demonstraram capacidades impressionantes na geração de vídeos de alta qualidade que capturam dinâmicas diversas do mundo real. Neste trabalho, apresentamos o Vid2World, uma abordagem geral para aproveitar e transferir modelos de difusão de vídeo pré-treinados para modelos de mundo interativos. Para preencher essa lacuna, o Vid2World realiza a casualização de um modelo de difusão de vídeo pré-treinado, adaptando sua arquitetura e objetivo de treinamento para permitir a geração autoregressiva. Além disso, ele introduz um mecanismo de orientação causal de ações para melhorar a controlabilidade das ações no modelo de mundo interativo resultante. Experimentos extensos em domínios de manipulação robótica e simulação de jogos mostram que nosso método oferece uma abordagem escalável e eficaz para reutilizar modelos de difusão de vídeo altamente capazes como modelos de mundo interativos.
English
World models, which predict transitions based on history observation and
action sequences, have shown great promise in improving data efficiency for
sequential decision making. However, existing world models often require
extensive domain-specific training and still produce low-fidelity, coarse
predictions, limiting their applicability in complex environments. In contrast,
video diffusion models trained on large, internet-scale datasets have
demonstrated impressive capabilities in generating high-quality videos that
capture diverse real-world dynamics. In this work, we present Vid2World, a
general approach for leveraging and transferring pre-trained video diffusion
models into interactive world models. To bridge the gap, Vid2World performs
casualization of a pre-trained video diffusion model by crafting its
architecture and training objective to enable autoregressive generation.
Furthermore, it introduces a causal action guidance mechanism to enhance action
controllability in the resulting interactive world model. Extensive experiments
in robot manipulation and game simulation domains show that our method offers a
scalable and effective approach for repurposing highly capable video diffusion
models to interactive world models.