VFusion3D : Apprentissage de modèles génératifs 3D évolutifs à partir de modèles de diffusion vidéo
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
Auteurs: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
Résumé
Cet article présente un nouveau paradigme pour construire des modèles génératifs 3D scalables en exploitant des modèles de diffusion vidéo pré-entraînés. Le principal obstacle au développement de modèles génératifs 3D de base est la disponibilité limitée des données 3D. Contrairement aux images, aux textes ou aux vidéos, les données 3D ne sont pas facilement accessibles et sont difficiles à acquérir. Cela entraîne une disparité significative en termes d'échelle par rapport aux vastes quantités d'autres types de données. Pour résoudre ce problème, nous proposons d'utiliser un modèle de diffusion vidéo, entraîné avec de grands volumes de textes, d'images et de vidéos, comme source de connaissances pour les données 3D. En déverrouillant ses capacités génératives multi-vues par le biais d'un ajustement fin, nous générons un ensemble de données synthétiques multi-vues à grande échelle pour entraîner un modèle génératif 3D à propagation avant. Le modèle proposé, VFusion3D, entraîné sur près de 3 millions de données multi-vues synthétiques, peut générer un actif 3D à partir d'une seule image en quelques secondes et obtient des performances supérieures par rapport aux modèles génératifs 3D à propagation avant actuels de l'état de l'art, avec une préférence des utilisateurs pour nos résultats dans plus de 70 % des cas.
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.Summary
AI-Generated Summary