VFusion3D: Lernen von skalierbaren 3D-generativen Modellen aus Video-Diffusionsmodellen

papers.abstract

Dieses Paper präsentiert ein neuartiges Paradigma zur Entwicklung skalierbarer 3D-generativer Modelle unter Verwendung von vorab trainierten Video-Diffusionsmodellen. Das Hauptproblem bei der Entwicklung von grundlegenden 3D-generativen Modellen ist die begrenzte Verfügbarkeit von 3D-Daten. Im Gegensatz zu Bildern, Texten oder Videos sind 3D-Daten nicht leicht zugänglich und schwer zu beschaffen. Dies führt im Vergleich zu den großen Mengen anderer Datentypen zu erheblichen Unterschieden im Maßstab. Um dieses Problem zu lösen, schlagen wir vor, ein Video-Diffusionsmodell zu verwenden, das mit umfangreichen Mengen von Texten, Bildern und Videos trainiert wurde, als Wissensquelle für 3D-Daten. Indem wir seine Multi-View-generative Fähigkeiten durch Feinabstimmung freischalten, generieren wir einen groß angelegten synthetischen Multi-View-Datensatz, um ein Feed-Forward-3D-generatives Modell zu trainieren. Das vorgeschlagene Modell, VFusion3D, das an fast 3 Millionen synthetischen Multi-View-Daten trainiert wurde, kann in Sekunden ein 3D-Objekt aus einem einzigen Bild generieren und erzielt eine überlegene Leistung im Vergleich zu aktuellen SOTA-Feed-Forward-3D-generativen Modellen, wobei die Benutzer unsere Ergebnisse über 70% der Zeit bevorzugen.

English

This paper presents a novel paradigm for building scalable 3D generative models utilizing pre-trained video diffusion models. The primary obstacle in developing foundation 3D generative models is the limited availability of 3D data. Unlike images, texts, or videos, 3D data are not readily accessible and are difficult to acquire. This results in a significant disparity in scale compared to the vast quantities of other types of data. To address this issue, we propose using a video diffusion model, trained with extensive volumes of text, images, and videos, as a knowledge source for 3D data. By unlocking its multi-view generative capabilities through fine-tuning, we generate a large-scale synthetic multi-view dataset to train a feed-forward 3D generative model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view data, can generate a 3D asset from a single image in seconds and achieves superior performance when compared to current SOTA feed-forward 3D generative models, with users preferring our results over 70% of the time.

VFusion3D: Lernen von skalierbaren 3D-generativen Modellen aus Video-Diffusionsmodellen

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

papers.abstract

Support