StableDreamer: 텍스트-3D 변환을 위한 잡음이 있는 점수 증류 샘플링의 제어
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D
December 2, 2023
저자: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI
초록
텍스트-3D 생성 분야에서 2D 확산 모델을 점수 증류 샘플링(SDS)을 통해 활용하는 경우, 본질적으로 노이즈가 많은 SDS 손실로 인해 흐릿한 외관과 다면체 기하학적 구조와 같은 문제가 자주 발생한다. 우리의 분석은 이러한 문제의 핵심이 2D 확산 과정의 노이즈 수준, 확산 네트워크의 구조, 그리고 3D 모델 표현 간의 상호작용에 있음을 밝혀냈다. 이러한 한계를 극복하기 위해, 우리는 세 가지 발전을 통합한 방법론인 StableDreamer를 제안한다. 첫째, InstructNeRF2NeRF에서 영감을 받아 SDS 생성 사전과 단순한 지도 L2 재구성 손실의 동등성을 공식화하였다. 이 발견은 SDS를 디버깅하는 새로운 도구를 제공하며, 이를 통해 시간에 따라 감소하는 노이즈 수준이 다면체 기하학적 구조를 줄이는 데 미치는 영향을 보여준다. 둘째, 우리의 분석은 이미지 공간 확산이 기하학적 정밀도에 기여하는 반면, 잠재 공간 확산이 생생한 색상 재현에 중요함을 보여준다. 이 관찰을 바탕으로, StableDreamer는 이러한 측면을 효과적으로 결합한 두 단계 훈련 전략을 도입하여 고품질의 3D 모델을 생성한다. 셋째, 우리는 Neural Radiance Fields(NeRFs)를 대체하여 등방성 3D 가우시안 표현을 채택함으로써 전반적인 품질을 향상시키고, 훈련 중 메모리 사용량을 줄이며, 렌더링 속도를 가속화하고, 반투명 물체를 더 잘 포착한다. StableDreamer는 다면체 기하학적 구조를 줄이고, 세부 사항을 생성하며, 안정적으로 수렴한다.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through
score distillation sampling (SDS) frequently leads to issues such as blurred
appearances and multi-faced geometry, primarily due to the intrinsically noisy
nature of the SDS loss. Our analysis identifies the core of these challenges as
the interaction among noise levels in the 2D diffusion process, the
architecture of the diffusion network, and the 3D model representation. To
overcome these limitations, we present StableDreamer, a methodology
incorporating three advances. First, inspired by InstructNeRF2NeRF, we
formalize the equivalence of the SDS generative prior and a simple supervised
L2 reconstruction loss. This finding provides a novel tool to debug SDS, which
we use to show the impact of time-annealing noise levels on reducing
multi-faced geometries. Second, our analysis shows that while image-space
diffusion contributes to geometric precision, latent-space diffusion is crucial
for vivid color rendition. Based on this observation, StableDreamer introduces
a two-stage training strategy that effectively combines these aspects,
resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D
Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance
the overall quality, reduce memory usage during training, and accelerate
rendering speeds, and better capture semi-transparent objects. StableDreamer
reduces multi-face geometries, generates fine details, and converges stably.