DiffSplat: Reutilización de Modelos de Difusión de Imágenes para la Generación Escalable de Splat Gaussianos
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
Autores: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
Resumen
Los avances recientes en la generación de contenido 3D a partir de texto o una sola imagen luchan con conjuntos de datos 3D de alta calidad limitados e inconsistencias en la generación multi-vista 2D. Presentamos DiffSplat, un nuevo marco generativo 3D que genera nativamente manchas gaussianas 3D al domar modelos de difusión texto-imagen a gran escala. Se diferencia de modelos generativos 3D anteriores al utilizar de manera efectiva priors 2D a escala web manteniendo consistencia 3D en un modelo unificado. Para arrancar el entrenamiento, se propone un modelo de reconstrucción ligero para producir instantáneamente cuadrículas de manchas gaussianas multi-vista para la curación escalable de conjuntos de datos. En conjunto con la pérdida de difusión regular en estas cuadrículas, se introduce una pérdida de renderizado 3D para facilitar la coherencia 3D en vistas arbitrarias. La compatibilidad con modelos de difusión de imagen permite adaptaciones fluidas de numerosas técnicas de generación de imagen al ámbito 3D. Experimentos extensos revelan la superioridad de DiffSplat en tareas de generación condicionadas por texto e imagen y aplicaciones posteriores. Estudios de ablación exhaustivos validan la eficacia de cada elección de diseño crítica y proporcionan información sobre el mecanismo subyacente.
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.