DiffSplat: Reprocessamento de Modelos de Difusão de Imagens para Geração Escalável de Splat Gaussiano

Resumo

Os avanços recentes na geração de conteúdo 3D a partir de texto ou de uma única imagem enfrentam desafios com conjuntos de dados 3D de alta qualidade limitados e inconsistências na geração de múltiplas visualizações 2D. Apresentamos o DiffSplat, um novo framework generativo 3D que gera nativamente splats gaussianos 3D ao domar modelos de difusão texto-imagem em larga escala. Ele se diferencia de modelos generativos 3D anteriores ao utilizar efetivamente priors 2D em escala web, mantendo a consistência 3D em um modelo unificado. Para inicializar o treinamento, um modelo de reconstrução leve é proposto para produzir instantaneamente grades de splats gaussianos de múltiplas visualizações para curadoria escalável de conjuntos de dados. Em conjunto com a perda de difusão regular nessas grades, é introduzida uma perda de renderização 3D para facilitar a coerência 3D em visualizações arbitrárias. A compatibilidade com modelos de difusão de imagem permite adaptações perfeitas de inúmeras técnicas de geração de imagem para o domínio 3D. Experimentos extensivos revelam a superioridade do DiffSplat em tarefas de geração condicionadas a texto e imagem, bem como em aplicações subsequentes. Estudos abrangentes de ablação validam a eficácia de cada escolha de design crítica e fornecem insights sobre o mecanismo subjacente.

English

Recent advancements in 3D content generation from text or a single image struggle with limited high-quality 3D datasets and inconsistency from 2D multi-view generation. We introduce DiffSplat, a novel 3D generative framework that natively generates 3D Gaussian splats by taming large-scale text-to-image diffusion models. It differs from previous 3D generative models by effectively utilizing web-scale 2D priors while maintaining 3D consistency in a unified model. To bootstrap the training, a lightweight reconstruction model is proposed to instantly produce multi-view Gaussian splat grids for scalable dataset curation. In conjunction with the regular diffusion loss on these grids, a 3D rendering loss is introduced to facilitate 3D coherence across arbitrary views. The compatibility with image diffusion models enables seamless adaptions of numerous techniques for image generation to the 3D realm. Extensive experiments reveal the superiority of DiffSplat in text- and image-conditioned generation tasks and downstream applications. Thorough ablation studies validate the efficacy of each critical design choice and provide insights into the underlying mechanism.

DiffSplat: Reprocessamento de Modelos de Difusão de Imagens para Geração Escalável de Splat Gaussiano

DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Resumo

Support