StableDreamer: Beherrschung des lauten Score Distillation Sampling für Text-zu-3D
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
December 2, 2023
papers.authors: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI
papers.abstract
Im Bereich der Text-zu-3D-Generierung führt die Nutzung von 2D-Diffusionsmodellen durch Score Distillation Sampling (SDS) häufig zu Problemen wie verschwommenen Darstellungen und mehrfachgesichtigen Geometrien, was hauptsächlich auf den inhärent verrauschten Charakter des SDS-Verlusts zurückzuführen ist. Unsere Analyse identifiziert den Kern dieser Herausforderungen in der Wechselwirkung zwischen den Rauschpegeln im 2D-Diffusionsprozess, der Architektur des Diffusionsnetzwerks und der 3D-Modellrepräsentation. Um diese Einschränkungen zu überwinden, präsentieren wir StableDreamer, eine Methode, die drei Fortschritte integriert. Erstens, inspiriert von InstructNeRF2NeRF, formalisieren wir die Äquivalenz des SDS-Generierungs-Priors und eines einfachen überwachten L2-Rekonstruktionsverlusts. Diese Erkenntnis bietet ein neuartiges Werkzeug zur Fehlerbehebung bei SDS, das wir nutzen, um die Auswirkungen zeitlich abgestufter Rauschpegel auf die Reduzierung mehrfachgesichtiger Geometrien zu zeigen. Zweitens zeigt unsere Analyse, dass während die Bildraum-Diffusion zur geometrischen Präzision beiträgt, die Latentraum-Diffusion entscheidend für die lebendige Farbwiedergabe ist. Basierend auf dieser Beobachtung führt StableDreamer eine zweistufige Trainingsstrategie ein, die diese Aspekte effektiv kombiniert und zu hochwertigen 3D-Modellen führt. Drittens verwenden wir eine anisotrope 3D-Gaußsche Repräsentation, die Neural Radiance Fields (NeRFs) ersetzt, um die Gesamtqualität zu verbessern, den Speicherverbrauch während des Trainings zu reduzieren, die Renderinggeschwindigkeiten zu erhöhen und halbtransparente Objekte besser zu erfassen. StableDreamer reduziert mehrfachgesichtige Geometrien, erzeugt feine Details und konvergiert stabil.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.