VFusion3D: Aprendizaje de Modelos Generativos 3D Escalables a partir de Modelos de Difusión de Video
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models
March 18, 2024
Autores: Junlin Han, Filippos Kokkinos, Philip Torr
cs.AI
Resumen
Este artículo presenta un nuevo paradigma para construir modelos generativos 3D escalables utilizando modelos de difusión de video preentrenados. El principal obstáculo en el desarrollo de modelos generativos 3D de base es la disponibilidad limitada de datos 3D. A diferencia de las imágenes, los textos o los videos, los datos 3D no son fácilmente accesibles y son difíciles de adquirir. Esto resulta en una disparidad significativa en escala en comparación con las vastas cantidades de otros tipos de datos. Para abordar este problema, proponemos utilizar un modelo de difusión de video, entrenado con grandes volúmenes de texto, imágenes y videos, como una fuente de conocimiento para datos 3D. Al desbloquear sus capacidades generativas multi-vista mediante ajuste fino, generamos un conjunto de datos sintéticos multi-vista a gran escala para entrenar un modelo generativo 3D de avance directo. El modelo propuesto, VFusion3D, entrenado con casi 3 millones de datos sintéticos multi-vista, puede generar un activo 3D a partir de una sola imagen en segundos y logra un rendimiento superior en comparación con los modelos generativos 3D de avance directo actuales más avanzados (SOTA), con los usuarios prefiriendo nuestros resultados más del 70% de las veces.
English
This paper presents a novel paradigm for building scalable 3D generative
models utilizing pre-trained video diffusion models. The primary obstacle in
developing foundation 3D generative models is the limited availability of 3D
data. Unlike images, texts, or videos, 3D data are not readily accessible and
are difficult to acquire. This results in a significant disparity in scale
compared to the vast quantities of other types of data. To address this issue,
we propose using a video diffusion model, trained with extensive volumes of
text, images, and videos, as a knowledge source for 3D data. By unlocking its
multi-view generative capabilities through fine-tuning, we generate a
large-scale synthetic multi-view dataset to train a feed-forward 3D generative
model. The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view
data, can generate a 3D asset from a single image in seconds and achieves
superior performance when compared to current SOTA feed-forward 3D generative
models, with users preferring our results over 70% of the time.Summary
AI-Generated Summary