DiffSplat: Переиспользование моделей диффузии изображений для масштабируемой генерации гауссовых сплэтов

Аннотация

Недавние достижения в генерации 3D-контента из текста или одного изображения сталкиваются с ограниченными высококачественными 3D-наборами данных и несогласованностью при генерации 2D-многозрительных изображений. Мы представляем DiffSplat, новую 3D-генеративную платформу, которая естественным образом создает 3D-гауссовские пятна, приручивая масштабные модели диффузии текста в изображение. Она отличается от предыдущих 3D-генеративных моделей эффективным использованием 2D-приоров масштаба веба, сохраняя при этом 3D-согласованность в единой модели. Для начального обучения предлагается легкая модель реконструкции, которая мгновенно создает многозрительные сетки гауссовских пятен для масштабируемой кураторской работы с набором данных. В сочетании с обычной потерей диффузии на этих сетках вводится потеря 3D-визуализации для облегчения 3D-согласованности между произвольными видами. Совместимость с моделями диффузии изображений обеспечивает безшовную адаптацию множества техник генерации изображений к 3D-пространству. Обширные эксперименты показывают превосходство DiffSplat в задачах генерации при условии текста и изображения, а также в прикладных задачах. Тщательные исследования абляции подтверждают эффективность каждого критического проектного решения и предоставляют понимание основного механизма.

English

Recent advancements in 3D content generation from text or a single image struggle with limited high-quality 3D datasets and inconsistency from 2D multi-view generation. We introduce DiffSplat, a novel 3D generative framework that natively generates 3D Gaussian splats by taming large-scale text-to-image diffusion models. It differs from previous 3D generative models by effectively utilizing web-scale 2D priors while maintaining 3D consistency in a unified model. To bootstrap the training, a lightweight reconstruction model is proposed to instantly produce multi-view Gaussian splat grids for scalable dataset curation. In conjunction with the regular diffusion loss on these grids, a 3D rendering loss is introduced to facilitate 3D coherence across arbitrary views. The compatibility with image diffusion models enables seamless adaptions of numerous techniques for image generation to the 3D realm. Extensive experiments reveal the superiority of DiffSplat in text- and image-conditioned generation tasks and downstream applications. Thorough ablation studies validate the efficacy of each critical design choice and provide insights into the underlying mechanism.

DiffSplat: Переиспользование моделей диффузии изображений для масштабируемой генерации гауссовых сплэтов

DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Аннотация

Support