ProlificDreamer: Geração de Texto para 3D de Alta Fidelidade e Diversidade com Distilação Variacional de Pontuação
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
May 25, 2023
Autores: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu
cs.AI
Resumo
A amostragem por destilação de pontuação (Score Distillation Sampling - SDS) tem mostrado grande potencial na geração de texto para 3D ao destilar modelos de difusão de texto para imagem em grande escala pré-treinados, mas sofre com problemas de super-saturação, super-suavização e baixa diversidade. Neste trabalho, propomos modelar o parâmetro 3D como uma variável aleatória em vez de uma constante, como no SDS, e apresentamos a destilação de pontuação variacional (Variational Score Distillation - VSD), uma estrutura variacional baseada em partículas fundamentada para explicar e abordar os problemas mencionados na geração de texto para 3D. Mostramos que o SDS é um caso especial do VSD e resulta em amostras de baixa qualidade tanto com pesos pequenos quanto grandes de CFG (Class-Free Guidance). Em comparação, o VSD funciona bem com vários pesos de CFG, como a amostragem ancestral de modelos de difusão, e simultaneamente melhora a diversidade e a qualidade das amostras com um peso comum de CFG (ou seja, 7,5). Apresentamos ainda diversas melhorias no espaço de design para texto para 3D, como o cronograma de tempo de destilação e a inicialização de densidade, que são ortogonais ao algoritmo de destilação, mas ainda não foram bem explorados. Nossa abordagem geral, chamada ProlificDreamer, pode gerar NeRF com alta resolução de renderização (ou seja, 512x512) e alta fidelidade, com estrutura rica e efeitos complexos (por exemplo, fumaça e gotas). Além disso, inicializados a partir de NeRF, malhas ajustadas pelo VSD são meticulosamente detalhadas e foto-realistas. Página do projeto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
English
Score distillation sampling (SDS) has shown great promise in text-to-3D
generation by distilling pretrained large-scale text-to-image diffusion models,
but suffers from over-saturation, over-smoothing, and low-diversity problems.
In this work, we propose to model the 3D parameter as a random variable instead
of a constant as in SDS and present variational score distillation (VSD), a
principled particle-based variational framework to explain and address the
aforementioned issues in text-to-3D generation. We show that SDS is a special
case of VSD and leads to poor samples with both small and large CFG weights. In
comparison, VSD works well with various CFG weights as ancestral sampling from
diffusion models and simultaneously improves the diversity and sample quality
with a common CFG weight (i.e., 7.5). We further present various improvements
in the design space for text-to-3D such as distillation time schedule and
density initialization, which are orthogonal to the distillation algorithm yet
not well explored. Our overall approach, dubbed ProlificDreamer, can generate
high rendering resolution (i.e., 512times512) and high-fidelity NeRF with
rich structure and complex effects (e.g., smoke and drops). Further,
initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and
photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/