VFusion3D: Apprendimento di Modelli Generativi 3D Scalabili da Modelli di Diffusione Video
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
Autori: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
Abstract
Questo articolo presenta un nuovo paradigma per la costruzione di modelli generativi 3D scalabili sfruttando modelli di diffusione video pre-addestrati. Il principale ostacolo nello sviluppo di modelli generativi 3D di base è la limitata disponibilità di dati 3D. A differenza di immagini, testi o video, i dati 3D non sono facilmente accessibili e sono difficili da acquisire. Ciò determina una significativa disparità in termini di scala rispetto alle vaste quantità di altri tipi di dati. Per affrontare questo problema, proponiamo di utilizzare un modello di diffusione video, addestrato con grandi volumi di testo, immagini e video, come fonte di conoscenza per i dati 3D. Sbloccando le sue capacità generative multi-vista attraverso un fine-tuning, generiamo un dataset sintetico multi-vista su larga scala per addestrare un modello generativo 3D feed-forward. Il modello proposto, VFusion3D, addestrato su quasi 3 milioni di dati multi-vista sintetici, è in grado di generare un asset 3D da una singola immagine in pochi secondi e raggiunge prestazioni superiori rispetto agli attuali modelli generativi 3D feed-forward allo stato dell'arte, con gli utenti che preferiscono i nostri risultati oltre il 70% delle volte.
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.