StableDreamer: Управление шумным методом дистилляции оценок для генерации 3D-моделей из текста
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
December 2, 2023
Авторы: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI
Аннотация
В области генерации 3D-моделей из текста использование 2D диффузионных моделей через метод сэмплирования с дистилляцией оценок (SDS) часто приводит к таким проблемам, как размытые текстуры и многоликая геометрия, что в основном обусловлено внутренне шумовой природой функции потерь SDS. Наш анализ выявляет, что корень этих проблем лежит во взаимодействии уровней шума в процессе 2D диффузии, архитектуре диффузионной сети и представлении 3D-модели. Чтобы преодолеть эти ограничения, мы представляем StableDreamer — методологию, включающую три ключевых улучшения. Во-первых, вдохновленные InstructNeRF2NeRF, мы формализуем эквивалентность генеративного априори SDS и простой функции потерь L2 для реконструкции. Это открытие предоставляет новый инструмент для отладки SDS, который мы используем для демонстрации влияния временного снижения уровней шума на уменьшение многоликой геометрии. Во-вторых, наш анализ показывает, что, хотя диффузия в пространстве изображений способствует точности геометрии, диффузия в латентном пространстве критически важна для яркой передачи цветов. На основе этого наблюдения StableDreamer вводит двухэтапную стратегию обучения, эффективно сочетающую эти аспекты, что приводит к созданию высококачественных 3D-моделей. В-третьих, мы применяем анизотропное представление 3D-гаусссиан, заменяя нейронные поля излучения (NeRF), чтобы улучшить общее качество, снизить использование памяти во время обучения, ускорить рендеринг и лучше воспроизводить полупрозрачные объекты. StableDreamer уменьшает многоликую геометрию, генерирует детализированные элементы и обеспечивает стабильную сходимость.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.