VFusion3D : Apprentissage de modèles génératifs 3D évolutifs à partir de modèles de diffusion vidéo

papers.abstract

Cet article présente un nouveau paradigme pour construire des modèles génératifs 3D scalables en exploitant des modèles de diffusion vidéo pré-entraînés. Le principal obstacle au développement de modèles génératifs 3D de base est la disponibilité limitée des données 3D. Contrairement aux images, aux textes ou aux vidéos, les données 3D ne sont pas facilement accessibles et sont difficiles à acquérir. Cela entraîne une disparité significative en termes d'échelle par rapport aux vastes quantités d'autres types de données. Pour résoudre ce problème, nous proposons d'utiliser un modèle de diffusion vidéo, entraîné avec de grands volumes de textes, d'images et de vidéos, comme source de connaissances pour les données 3D. En déverrouillant ses capacités génératives multi-vues par le biais d'un ajustement fin, nous générons un ensemble de données synthétiques multi-vues à grande échelle pour entraîner un modèle génératif 3D à propagation avant. Le modèle proposé, VFusion3D, entraîné sur près de 3 millions de données multi-vues synthétiques, peut générer un actif 3D à partir d'une seule image en quelques secondes et obtient des performances supérieures par rapport aux modèles génératifs 3D à propagation avant actuels de l'état de l'art, avec une préférence des utilisateurs pour nos résultats dans plus de 70 % des cas.

English

This paper presents a novel paradigm for building scalable 3D generative models utilizing pre-trained video diffusion models. The primary obstacle in developing foundation 3D generative models is the limited availability of 3D data. Unlike images, texts, or videos, 3D data are not readily accessible and are difficult to acquire. This results in a significant disparity in scale compared to the vast quantities of other types of data. To address this issue, we propose using a video diffusion model, trained with extensive volumes of text, images, and videos, as a knowledge source for 3D data. By unlocking its multi-view generative capabilities through fine-tuning, we generate a large-scale synthetic multi-view dataset to train a feed-forward 3D generative model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view data, can generate a 3D asset from a single image in seconds and achieves superior performance when compared to current SOTA feed-forward 3D generative models, with users preferring our results over 70% of the time.

VFusion3D : Apprentissage de modèles génératifs 3D évolutifs à partir de modèles de diffusion vidéo

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

papers.abstract

Support