ChatPaper.aiChatPaper

ProlificDreamer: 변분 스코어 증류를 통한 고해상도 및 다양성 있는 텍스트-3D 생성

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

May 25, 2023
저자: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu
cs.AI

초록

스코어 증류 샘플링(Score Distillation Sampling, SDS)은 사전 학습된 대규모 텍스트-이미지 확산 모델을 증류하여 텍스트-3D 생성에서 큰 가능성을 보여주었지만, 과포화, 과도한 평활화, 그리고 낮은 다양성 문제를 겪고 있습니다. 본 연구에서는 SDS에서와 같이 3D 매개변수를 상수로 모델링하는 대신 이를 확률 변수로 모델링하고, 텍스트-3D 생성에서 앞서 언급된 문제들을 설명하고 해결하기 위한 원칙 기반의 입자 기반 변분 프레임워크인 변분 스코어 증류(Variational Score Distillation, VSD)를 제안합니다. 우리는 SDS가 VSD의 특수한 경우이며, 작은 CFG 가중치와 큰 CFG 가중치 모두에서 열악한 샘플을 생성한다는 것을 보여줍니다. 반면, VSD는 다양한 CFG 가중치에서 잘 작동하며, 확산 모델의 조상 샘플링과 유사하게 일반적인 CFG 가중치(즉, 7.5)에서 다양성과 샘플 품질을 동시에 개선합니다. 또한, 증류 알고리즘과는 직교적이지만 잘 탐구되지 않은 증류 시간 스케줄링 및 밀도 초기화와 같은 텍스트-3D 설계 공간에서의 다양한 개선 사항을 제시합니다. 우리의 전체 접근 방식인 ProlificDreamer는 높은 렌더링 해상도(즉, 512x512)와 풍부한 구조 및 복잡한 효과(예: 연기와 물방울)를 가진 고품질 NeRF를 생성할 수 있습니다. 더 나아가, NeRF로 초기화된 메시는 VSD로 미세 조정되어 세밀하고 사실적인 디테일을 갖추게 됩니다. 프로젝트 페이지: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
English
Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., 7.5). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., 512times512) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

Summary

AI-Generated Summary

PDF90December 15, 2024