VFusion3D: Aprendizaje de Modelos Generativos 3D Escalables a partir de Modelos de Difusión de Video

Resumen

Este artículo presenta un nuevo paradigma para construir modelos generativos 3D escalables utilizando modelos de difusión de video preentrenados. El principal obstáculo en el desarrollo de modelos generativos 3D de base es la disponibilidad limitada de datos 3D. A diferencia de las imágenes, los textos o los videos, los datos 3D no son fácilmente accesibles y son difíciles de adquirir. Esto resulta en una disparidad significativa en escala en comparación con las vastas cantidades de otros tipos de datos. Para abordar este problema, proponemos utilizar un modelo de difusión de video, entrenado con grandes volúmenes de texto, imágenes y videos, como una fuente de conocimiento para datos 3D. Al desbloquear sus capacidades generativas multi-vista mediante ajuste fino, generamos un conjunto de datos sintéticos multi-vista a gran escala para entrenar un modelo generativo 3D de avance directo. El modelo propuesto, VFusion3D, entrenado con casi 3 millones de datos sintéticos multi-vista, puede generar un activo 3D a partir de una sola imagen en segundos y logra un rendimiento superior en comparación con los modelos generativos 3D de avance directo actuales más avanzados (SOTA), con los usuarios prefiriendo nuestros resultados más del 70% de las veces.

English

This paper presents a novel paradigm for building scalable 3D generative models utilizing pre-trained video diffusion models. The primary obstacle in developing foundation 3D generative models is the limited availability of 3D data. Unlike images, texts, or videos, 3D data are not readily accessible and are difficult to acquire. This results in a significant disparity in scale compared to the vast quantities of other types of data. To address this issue, we propose using a video diffusion model, trained with extensive volumes of text, images, and videos, as a knowledge source for 3D data. By unlocking its multi-view generative capabilities through fine-tuning, we generate a large-scale synthetic multi-view dataset to train a feed-forward 3D generative model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view data, can generate a 3D asset from a single image in seconds and achieves superior performance when compared to current SOTA feed-forward 3D generative models, with users preferring our results over 70% of the time.

VFusion3D: Aprendizaje de Modelos Generativos 3D Escalables a partir de Modelos de Difusión de Video

VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

Resumen

Support