StableDreamer: Domando a Amostragem de Destilação de Pontuação Ruidosa para Texto-para-3D
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
December 2, 2023
Autores: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI
Resumo
No domínio da geração de texto para 3D, a utilização de modelos de difusão 2D por meio de amostragem por destilação de pontuação (SDS, na sigla em inglês) frequentemente resulta em problemas como aparências borradas e geometrias multifacetadas, principalmente devido à natureza intrinsecamente ruidosa da perda SDS. Nossa análise identifica o cerne desses desafios como a interação entre os níveis de ruído no processo de difusão 2D, a arquitetura da rede de difusão e a representação do modelo 3D. Para superar essas limitações, apresentamos o StableDreamer, uma metodologia que incorpora três avanços. Primeiro, inspirados pelo InstructNeRF2NeRF, formalizamos a equivalência do prior gerativo SDS e uma simples perda de reconstrução supervisionada L2. Essa descoberta fornece uma nova ferramenta para depurar o SDS, que usamos para mostrar o impacto dos níveis de ruído com anelamento temporal na redução de geometrias multifacetadas. Segundo, nossa análise mostra que, embora a difusão no espaço de imagem contribua para a precisão geométrica, a difusão no espaço latente é crucial para a reprodução de cores vívidas. Com base nessa observação, o StableDreamer introduz uma estratégia de treinamento em duas etapas que combina efetivamente esses aspectos, resultando em modelos 3D de alta fidelidade. Terceiro, adotamos uma representação de Gaussianas 3D anisotrópicas, substituindo os Campos de Radiança Neural (NeRFs, na sigla em inglês), para melhorar a qualidade geral, reduzir o uso de memória durante o treinamento, acelerar as velocidades de renderização e capturar melhor objetos semitransparentes. O StableDreamer reduz geometrias multifacetadas, gera detalhes refinados e converge de forma estável.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.