DiffSplat: Переиспользование моделей диффузии изображений для масштабируемой генерации гауссовых сплэтов
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
Авторы: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
Аннотация
Недавние достижения в генерации 3D-контента из текста или одного изображения сталкиваются с ограниченными высококачественными 3D-наборами данных и несогласованностью при генерации 2D-многозрительных изображений. Мы представляем DiffSplat, новую 3D-генеративную платформу, которая естественным образом создает 3D-гауссовские пятна, приручивая масштабные модели диффузии текста в изображение. Она отличается от предыдущих 3D-генеративных моделей эффективным использованием 2D-приоров масштаба веба, сохраняя при этом 3D-согласованность в единой модели. Для начального обучения предлагается легкая модель реконструкции, которая мгновенно создает многозрительные сетки гауссовских пятен для масштабируемой кураторской работы с набором данных. В сочетании с обычной потерей диффузии на этих сетках вводится потеря 3D-визуализации для облегчения 3D-согласованности между произвольными видами. Совместимость с моделями диффузии изображений обеспечивает безшовную адаптацию множества техник генерации изображений к 3D-пространству. Обширные эксперименты показывают превосходство DiffSplat в задачах генерации при условии текста и изображения, а также в прикладных задачах. Тщательные исследования абляции подтверждают эффективность каждого критического проектного решения и предоставляют понимание основного механизма.
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.Summary
AI-Generated Summary