VFusion3D: Aprendendo Modelos Generativos 3D Escaláveis a partir de Modelos de Difusão em Vídeo
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
Autores: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
Resumo
Este artigo apresenta um novo paradigma para a construção de modelos generativos 3D escaláveis, utilizando modelos de difusão de vídeo pré-treinados. O principal obstáculo no desenvolvimento de modelos generativos 3D de base é a disponibilidade limitada de dados 3D. Diferentemente de imagens, textos ou vídeos, os dados 3D não são facilmente acessíveis e são difíceis de adquirir. Isso resulta em uma disparidade significativa de escala em comparação com as vastas quantidades de outros tipos de dados. Para resolver esse problema, propomos o uso de um modelo de difusão de vídeo, treinado com grandes volumes de texto, imagens e vídeos, como uma fonte de conhecimento para dados 3D. Ao desbloquear suas capacidades generativas de múltiplas visões por meio de ajuste fino, geramos um conjunto de dados sintético de múltiplas visões em grande escala para treinar um modelo generativo 3D de avanço direto. O modelo proposto, VFusion3D, treinado em quase 3 milhões de dados sintéticos de múltiplas visões, pode gerar um ativo 3D a partir de uma única imagem em segundos e alcança desempenho superior quando comparado aos modelos generativos 3D de avanço direto atuais, com os usuários preferindo nossos resultados mais de 70% das vezes.
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.