ChatPaper.aiChatPaper

DiffSplat: Riutilizzo dei modelli di diffusione delle immagini per la generazione scalabile di Gaussian Splat.

DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

January 28, 2025
Autori: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI

Abstract

I recenti progressi nella generazione di contenuti 3D da testo o da un'immagine singola faticano con dataset 3D di alta qualità limitati e con l'incoerenza dalla generazione multi-vista 2D. Presentiamo DiffSplat, un nuovo framework generativo 3D che genera nativamente splat gaussiani 3D addomesticando modelli di diffusione testo-immagine su larga scala. Si differenzia dai modelli generativi 3D precedenti utilizzando efficacemente prior 2D su scala web mantenendo al contempo la coerenza 3D in un modello unificato. Per avviare l'addestramento, viene proposto un modello di ricostruzione leggero per produrre istantaneamente griglie di splat gaussiani multi-vista per la cura scalabile del dataset. In congiunzione con la perdita di diffusione regolare su queste griglie, viene introdotta una perdita di rendering 3D per facilitare la coerenza 3D tra viste arbitrarie. La compatibilità con i modelli di diffusione di immagini consente adattamenti fluidi di numerose tecniche per la generazione di immagini al mondo 3D. Estesi esperimenti rivelano la superiorità di DiffSplat nelle attività di generazione condizionate da testo e immagine e nelle applicazioni successive. Approfonditi studi di ablazione convalidano l'efficacia di ciascuna scelta progettuale critica e forniscono approfondimenti sul meccanismo sottostante.
English
Recent advancements in 3D content generation from text or a single image struggle with limited high-quality 3D datasets and inconsistency from 2D multi-view generation. We introduce DiffSplat, a novel 3D generative framework that natively generates 3D Gaussian splats by taming large-scale text-to-image diffusion models. It differs from previous 3D generative models by effectively utilizing web-scale 2D priors while maintaining 3D consistency in a unified model. To bootstrap the training, a lightweight reconstruction model is proposed to instantly produce multi-view Gaussian splat grids for scalable dataset curation. In conjunction with the regular diffusion loss on these grids, a 3D rendering loss is introduced to facilitate 3D coherence across arbitrary views. The compatibility with image diffusion models enables seamless adaptions of numerous techniques for image generation to the 3D realm. Extensive experiments reveal the superiority of DiffSplat in text- and image-conditioned generation tasks and downstream applications. Thorough ablation studies validate the efficacy of each critical design choice and provide insights into the underlying mechanism.

Summary

AI-Generated Summary

PDF223January 29, 2025