VFusion3D: Apprendimento di Modelli Generativi 3D Scalabili da Modelli di Diffusione Video

Abstract

Questo articolo presenta un nuovo paradigma per la costruzione di modelli generativi 3D scalabili sfruttando modelli di diffusione video pre-addestrati. Il principale ostacolo nello sviluppo di modelli generativi 3D di base è la limitata disponibilità di dati 3D. A differenza di immagini, testi o video, i dati 3D non sono facilmente accessibili e sono difficili da acquisire. Ciò determina una significativa disparità in termini di scala rispetto alle vaste quantità di altri tipi di dati. Per affrontare questo problema, proponiamo di utilizzare un modello di diffusione video, addestrato con grandi volumi di testo, immagini e video, come fonte di conoscenza per i dati 3D. Sbloccando le sue capacità generative multi-vista attraverso un fine-tuning, generiamo un dataset sintetico multi-vista su larga scala per addestrare un modello generativo 3D feed-forward. Il modello proposto, VFusion3D, addestrato su quasi 3 milioni di dati multi-vista sintetici, è in grado di generare un asset 3D da una singola immagine in pochi secondi e raggiunge prestazioni superiori rispetto agli attuali modelli generativi 3D feed-forward allo stato dell'arte, con gli utenti che preferiscono i nostri risultati oltre il 70% delle volte.

English

This paper presents a novel paradigm for building scalable 3D generative models utilizing pre-trained video diffusion models. The primary obstacle in developing foundation 3D generative models is the limited availability of 3D data. Unlike images, texts, or videos, 3D data are not readily accessible and are difficult to acquire. This results in a significant disparity in scale compared to the vast quantities of other types of data. To address this issue, we propose using a video diffusion model, trained with extensive volumes of text, images, and videos, as a knowledge source for 3D data. By unlocking its multi-view generative capabilities through fine-tuning, we generate a large-scale synthetic multi-view dataset to train a feed-forward 3D generative model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view data, can generate a 3D asset from a single image in seconds and achieves superior performance when compared to current SOTA feed-forward 3D generative models, with users preferring our results over 70% of the time.

VFusion3D: Apprendimento di Modelli Generativi 3D Scalabili da Modelli di Diffusione Video

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

Abstract

Support