VFusion3D: Lernen von skalierbaren 3D-generativen Modellen aus Video-Diffusionsmodellen
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
Autoren: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
Zusammenfassung
Dieses Paper präsentiert ein neuartiges Paradigma zur Entwicklung skalierbarer 3D-generativer Modelle unter Verwendung von vorab trainierten Video-Diffusionsmodellen. Das Hauptproblem bei der Entwicklung von grundlegenden 3D-generativen Modellen ist die begrenzte Verfügbarkeit von 3D-Daten. Im Gegensatz zu Bildern, Texten oder Videos sind 3D-Daten nicht leicht zugänglich und schwer zu beschaffen. Dies führt im Vergleich zu den großen Mengen anderer Datentypen zu erheblichen Unterschieden im Maßstab. Um dieses Problem zu lösen, schlagen wir vor, ein Video-Diffusionsmodell zu verwenden, das mit umfangreichen Mengen von Texten, Bildern und Videos trainiert wurde, als Wissensquelle für 3D-Daten. Indem wir seine Multi-View-generative Fähigkeiten durch Feinabstimmung freischalten, generieren wir einen groß angelegten synthetischen Multi-View-Datensatz, um ein Feed-Forward-3D-generatives Modell zu trainieren. Das vorgeschlagene Modell, VFusion3D, das an fast 3 Millionen synthetischen Multi-View-Daten trainiert wurde, kann in Sekunden ein 3D-Objekt aus einem einzigen Bild generieren und erzielt eine überlegene Leistung im Vergleich zu aktuellen SOTA-Feed-Forward-3D-generativen Modellen, wobei die Benutzer unsere Ergebnisse über 70% der Zeit bevorzugen.
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.Summary
AI-Generated Summary