DiffSplat: Riutilizzo dei modelli di diffusione delle immagini per la generazione scalabile di Gaussian Splat.
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
Autori: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
Abstract
I recenti progressi nella generazione di contenuti 3D da testo o da un'immagine singola faticano con dataset 3D di alta qualità limitati e con l'incoerenza dalla generazione multi-vista 2D. Presentiamo DiffSplat, un nuovo framework generativo 3D che genera nativamente splat gaussiani 3D addomesticando modelli di diffusione testo-immagine su larga scala. Si differenzia dai modelli generativi 3D precedenti utilizzando efficacemente prior 2D su scala web mantenendo al contempo la coerenza 3D in un modello unificato. Per avviare l'addestramento, viene proposto un modello di ricostruzione leggero per produrre istantaneamente griglie di splat gaussiani multi-vista per la cura scalabile del dataset. In congiunzione con la perdita di diffusione regolare su queste griglie, viene introdotta una perdita di rendering 3D per facilitare la coerenza 3D tra viste arbitrarie. La compatibilità con i modelli di diffusione di immagini consente adattamenti fluidi di numerose tecniche per la generazione di immagini al mondo 3D. Estesi esperimenti rivelano la superiorità di DiffSplat nelle attività di generazione condizionate da testo e immagine e nelle applicazioni successive. Approfonditi studi di ablazione convalidano l'efficacia di ciascuna scelta progettuale critica e forniscono approfondimenti sul meccanismo sottostante.
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.Summary
AI-Generated Summary