DiffSplat: Reprocessamento de Modelos de Difusão de Imagens para Geração Escalável de Splat Gaussiano
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
Autores: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
Resumo
Os avanços recentes na geração de conteúdo 3D a partir de texto ou de uma única imagem enfrentam desafios com conjuntos de dados 3D de alta qualidade limitados e inconsistências na geração de múltiplas visualizações 2D. Apresentamos o DiffSplat, um novo framework generativo 3D que gera nativamente splats gaussianos 3D ao domar modelos de difusão texto-imagem em larga escala. Ele se diferencia de modelos generativos 3D anteriores ao utilizar efetivamente priors 2D em escala web, mantendo a consistência 3D em um modelo unificado. Para inicializar o treinamento, um modelo de reconstrução leve é proposto para produzir instantaneamente grades de splats gaussianos de múltiplas visualizações para curadoria escalável de conjuntos de dados. Em conjunto com a perda de difusão regular nessas grades, é introduzida uma perda de renderização 3D para facilitar a coerência 3D em visualizações arbitrárias. A compatibilidade com modelos de difusão de imagem permite adaptações perfeitas de inúmeras técnicas de geração de imagem para o domínio 3D. Experimentos extensivos revelam a superioridade do DiffSplat em tarefas de geração condicionadas a texto e imagem, bem como em aplicações subsequentes. Estudos abrangentes de ablação validam a eficácia de cada escolha de design crítica e fornecem insights sobre o mecanismo subjacente.
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.Summary
AI-Generated Summary