StableDreamer: Domare il Campionamento Distillato del Punteggio Rumore per la Generazione di 3D da Testo
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
December 2, 2023
Autori: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI
Abstract
Nel campo della generazione da testo a 3D, l'utilizzo di modelli di diffusione 2D attraverso il campionamento per distillazione del punteggio (SDS) spesso porta a problemi come aspetti sfocati e geometrie multi-facciali, principalmente a causa della natura intrinsecamente rumorosa della perdita SDS. La nostra analisi identifica il cuore di queste sfide nell'interazione tra i livelli di rumore nel processo di diffusione 2D, l'architettura della rete di diffusione e la rappresentazione del modello 3D. Per superare queste limitazioni, presentiamo StableDreamer, una metodologia che incorpora tre avanzamenti. Innanzitutto, ispirati da InstructNeRF2NeRF, formalizziamo l'equivalenza del prior generativo SDS e di una semplice perdita di ricostruzione L2 supervisionata. Questa scoperta fornisce un nuovo strumento per il debug di SDS, che utilizziamo per mostrare l'impatto dei livelli di rumore con annealing temporale sulla riduzione delle geometrie multi-facciali. In secondo luogo, la nostra analisi dimostra che mentre la diffusione nello spazio delle immagini contribuisce alla precisione geometrica, la diffusione nello spazio latente è cruciale per una resa cromatica vivida. Sulla base di questa osservazione, StableDreamer introduce una strategia di addestramento in due fasi che combina efficacemente questi aspetti, ottenendo modelli 3D ad alta fedeltà. In terzo luogo, adottiamo una rappresentazione anisotropa di Gaussiane 3D, sostituendo i Campi di Radianza Neurale (NeRF), per migliorare la qualità complessiva, ridurre l'uso della memoria durante l'addestramento, accelerare le velocità di rendering e catturare meglio oggetti semi-trasparenti. StableDreamer riduce le geometrie multi-facciali, genera dettagli fini e converge in modo stabile.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.