점진적 렌더링 증류: 3D 데이터 없이 즉각적인 텍스트-투-메시 생성을 위한 Stable Diffusion 적응
Progressive Rendering Distillation: Adapting Stable Diffusion for Instant Text-to-Mesh Generation without 3D Data
March 27, 2025
저자: Zhiyuan Ma, Xinyue Liang, Rongyuan Wu, Xiangyu Zhu, Zhen Lei, Lei Zhang
cs.AI
초록
텍스트 프롬프트로부터 단 몇 초 만에 고품질 3D 메시를 생성할 수 있는 모델을 얻는 것은 매우 바람직한 일입니다. 최근 시도들은 Stable Diffusion(SD)과 같은 사전 학습된 텍스트-이미지 확산 모델을 3D 표현(예: Triplane) 생성기로 적응시키려 했지만, 고품질 3D 학습 데이터의 부족으로 인해 종종 품질이 낮은 문제가 발생했습니다. 이러한 데이터 부족 문제를 극복하기 위해, 우리는 Progressive Rendering Distillation(PRD)이라는 새로운 학습 방식을 제안합니다. PRD는 3D 실측 데이터(ground-truth) 없이도 다중 뷰 확산 모델을 증류하고 SD를 네이티브 3D 생성기로 적응시킵니다. 학습의 각 반복에서 PRD는 U-Net을 사용하여 무작위 노이즈로부터 잠재 변수를 점진적으로 몇 단계에 걸쳐 노이즈 제거하고, 각 단계에서 노이즈가 제거된 잠재 변수를 3D 출력으로 디코딩합니다. MVDream과 RichDreamer를 포함한 다중 뷰 확산 모델은 SD와 함께 사용되어 텍스트 일관성 있는 텍스처와 기하학적 구조를 점수 증류를 통해 3D 출력에 증류합니다. PRD는 3D 실측 데이터 없이도 학습을 지원하므로, 학습 데이터를 쉽게 확장하고 창의적인 개념을 포함한 도전적인 텍스트 프롬프트에 대한 생성 품질을 향상시킬 수 있습니다. 동시에 PRD는 단 몇 단계만으로 생성 모델의 추론 속도를 가속화할 수 있습니다. PRD를 통해 우리는 TriplaneTurbo라는 Triplane 생성기를 학습시켰으며, 이는 SD를 Triplane 생성에 적응시키기 위해 학습 가능한 매개변수를 단 2.5%만 추가합니다. TriplaneTurbo는 이전의 텍스트-3D 생성기들보다 효율성과 품질 모두에서 우수한 성능을 보입니다. 특히, 1.2초 만에 고품질 3D 메시를 생성할 수 있으며 도전적인 텍스트 입력에도 잘 일반화됩니다. 코드는 https://github.com/theEricMa/TriplaneTurbo에서 확인할 수 있습니다.
English
It is highly desirable to obtain a model that can generate high-quality 3D
meshes from text prompts in just seconds. While recent attempts have adapted
pre-trained text-to-image diffusion models, such as Stable Diffusion (SD), into
generators of 3D representations (e.g., Triplane), they often suffer from poor
quality due to the lack of sufficient high-quality 3D training data. Aiming at
overcoming the data shortage, we propose a novel training scheme, termed as
Progressive Rendering Distillation (PRD), eliminating the need for 3D
ground-truths by distilling multi-view diffusion models and adapting SD into a
native 3D generator. In each iteration of training, PRD uses the U-Net to
progressively denoise the latent from random noise for a few steps, and in each
step it decodes the denoised latent into 3D output. Multi-view diffusion
models, including MVDream and RichDreamer, are used in joint with SD to distill
text-consistent textures and geometries into the 3D outputs through score
distillation. Since PRD supports training without 3D ground-truths, we can
easily scale up the training data and improve generation quality for
challenging text prompts with creative concepts. Meanwhile, PRD can accelerate
the inference speed of the generation model in just a few steps. With PRD, we
train a Triplane generator, namely TriplaneTurbo, which adds only 2.5%
trainable parameters to adapt SD for Triplane generation. TriplaneTurbo
outperforms previous text-to-3D generators in both efficiency and quality.
Specifically, it can produce high-quality 3D meshes in 1.2 seconds and
generalize well for challenging text input. The code is available at
https://github.com/theEricMa/TriplaneTurbo.Summary
AI-Generated Summary