ChatPaper.aiChatPaper

DiffSplat : Repurposer les modèles de diffusion d'images pour la génération évolutive de splats gaussiens

DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

January 28, 2025
Auteurs: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI

Résumé

Les récentes avancées dans la génération de contenu 3D à partir de texte ou d'une seule image rencontrent des difficultés liées à des ensembles de données 3D de haute qualité limités et à des incohérences provenant de la génération multi-vue 2D. Nous présentons DiffSplat, un nouveau cadre génératif 3D qui génère nativement des éclats gaussiens 3D en apprivoisant de vastes modèles de diffusion texte-image à grande échelle. Il se distingue des modèles génératifs 3D précédents en utilisant efficacement des informations a priori 2D à l'échelle du web tout en maintenant une cohérence 3D dans un modèle unifié. Pour amorcer l'entraînement, un modèle de reconstruction léger est proposé pour produire instantanément des grilles d'éclats gaussiens multi-vues en vue d'une curation évolutive des ensembles de données. En plus de la perte de diffusion régulière sur ces grilles, une perte de rendu 3D est introduite pour faciliter la cohérence 3D à travers des vues arbitraires. La compatibilité avec les modèles de diffusion d'images permet des adaptations fluides de nombreuses techniques de génération d'images au domaine 3D. Des expériences approfondies révèlent la supériorité de DiffSplat dans les tâches de génération conditionnées par du texte et des images, ainsi que dans les applications ultérieures. Des études d'ablation approfondies valident l'efficacité de chaque choix de conception critique et fournissent des éclairages sur le mécanisme sous-jacent.
English
Recent advancements in 3D content generation from text or a single image struggle with limited high-quality 3D datasets and inconsistency from 2D multi-view generation. We introduce DiffSplat, a novel 3D generative framework that natively generates 3D Gaussian splats by taming large-scale text-to-image diffusion models. It differs from previous 3D generative models by effectively utilizing web-scale 2D priors while maintaining 3D consistency in a unified model. To bootstrap the training, a lightweight reconstruction model is proposed to instantly produce multi-view Gaussian splat grids for scalable dataset curation. In conjunction with the regular diffusion loss on these grids, a 3D rendering loss is introduced to facilitate 3D coherence across arbitrary views. The compatibility with image diffusion models enables seamless adaptions of numerous techniques for image generation to the 3D realm. Extensive experiments reveal the superiority of DiffSplat in text- and image-conditioned generation tasks and downstream applications. Thorough ablation studies validate the efficacy of each critical design choice and provide insights into the underlying mechanism.

Summary

AI-Generated Summary

PDF223January 29, 2025