Vid2World: Desenvolvendo Modelos de Difusão de Vídeo para Modelos de Mundo Interativos

Resumo

Modelos de mundo, que preveem transições com base em sequências de observações e ações históricas, têm mostrado grande potencial para melhorar a eficiência de dados na tomada de decisões sequenciais. No entanto, os modelos de mundo existentes frequentemente exigem treinamento extensivo específico do domínio e ainda produzem previsões de baixa fidelidade e grosseiras, limitando sua aplicabilidade em ambientes complexos. Em contraste, modelos de difusão de vídeo treinados em grandes conjuntos de dados em escala da internet demonstraram capacidades impressionantes na geração de vídeos de alta qualidade que capturam dinâmicas diversas do mundo real. Neste trabalho, apresentamos o Vid2World, uma abordagem geral para aproveitar e transferir modelos de difusão de vídeo pré-treinados para modelos de mundo interativos. Para preencher essa lacuna, o Vid2World realiza a casualização de um modelo de difusão de vídeo pré-treinado, adaptando sua arquitetura e objetivo de treinamento para permitir a geração autoregressiva. Além disso, ele introduz um mecanismo de orientação causal de ações para melhorar a controlabilidade das ações no modelo de mundo interativo resultante. Experimentos extensos em domínios de manipulação robótica e simulação de jogos mostram que nosso método oferece uma abordagem escalável e eficaz para reutilizar modelos de difusão de vídeo altamente capazes como modelos de mundo interativos.

English

World models, which predict transitions based on history observation and action sequences, have shown great promise in improving data efficiency for sequential decision making. However, existing world models often require extensive domain-specific training and still produce low-fidelity, coarse predictions, limiting their applicability in complex environments. In contrast, video diffusion models trained on large, internet-scale datasets have demonstrated impressive capabilities in generating high-quality videos that capture diverse real-world dynamics. In this work, we present Vid2World, a general approach for leveraging and transferring pre-trained video diffusion models into interactive world models. To bridge the gap, Vid2World performs casualization of a pre-trained video diffusion model by crafting its architecture and training objective to enable autoregressive generation. Furthermore, it introduces a causal action guidance mechanism to enhance action controllability in the resulting interactive world model. Extensive experiments in robot manipulation and game simulation domains show that our method offers a scalable and effective approach for repurposing highly capable video diffusion models to interactive world models.

Vid2World: Desenvolvendo Modelos de Difusão de Vídeo para Modelos de Mundo Interativos

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Resumo

Support