StableDreamer: Het temmen van ruisachtige score-distillatiebemonstering voor tekst-naar-3D
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
December 2, 2023
Auteurs: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI
Samenvatting
In het domein van tekst-naar-3D-generatie leidt het gebruik van 2D-diffusiemodellen via score-distillatie-sampling (SDS) vaak tot problemen zoals vervaagde verschijningen en veelvlakkige geometrieën, voornamelijk vanwege de inherent ruizige aard van het SDS-verlies. Onze analyse identificeert de kern van deze uitdagingen als de interactie tussen ruisniveaus in het 2D-diffusieproces, de architectuur van het diffusienetwerk en de 3D-modelrepresentatie. Om deze beperkingen te overwinnen, presenteren we StableDreamer, een methodologie die drie vooruitgangen omvat. Ten eerste, geïnspireerd door InstructNeRF2NeRF, formaliseren we de gelijkwaardigheid van de SDS-generatieve prior en een eenvoudig gesuperviseerd L2-reconstructieverlies. Deze bevinding biedt een nieuw hulpmiddel om SDS te debuggen, waarmee we het effect van tijd-annealing-ruisniveaus op het verminderen van veelvlakkige geometrieën aantonen. Ten tweede laat onze analyse zien dat hoewel beeldruimte-diffusie bijdraagt aan geometrische precisie, latentieruimte-diffusie cruciaal is voor levendige kleurweergave. Op basis van deze observatie introduceert StableDreamer een tweefasige trainingsstrategie die deze aspecten effectief combineert, wat resulteert in hoogwaardige 3D-modellen. Ten derde nemen we een anisotrope 3D-Gaussiaanse representatie aan, die Neural Radiance Fields (NeRFs) vervangt, om de algehele kwaliteit te verbeteren, het geheugengebruik tijdens de training te verminderen, de renderingsnelheden te versnellen en semi-transparante objecten beter vast te leggen. StableDreamer vermindert veelvlakkige geometrieën, genereert fijne details en convergeert stabiel.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.