ProlificDreamer: Geração de Texto para 3D de Alta Fidelidade e Diversidade com Distilação Variacional de Pontuação

Resumo

A amostragem por destilação de pontuação (Score Distillation Sampling - SDS) tem mostrado grande potencial na geração de texto para 3D ao destilar modelos de difusão de texto para imagem em grande escala pré-treinados, mas sofre com problemas de super-saturação, super-suavização e baixa diversidade. Neste trabalho, propomos modelar o parâmetro 3D como uma variável aleatória em vez de uma constante, como no SDS, e apresentamos a destilação de pontuação variacional (Variational Score Distillation - VSD), uma estrutura variacional baseada em partículas fundamentada para explicar e abordar os problemas mencionados na geração de texto para 3D. Mostramos que o SDS é um caso especial do VSD e resulta em amostras de baixa qualidade tanto com pesos pequenos quanto grandes de CFG (Class-Free Guidance). Em comparação, o VSD funciona bem com vários pesos de CFG, como a amostragem ancestral de modelos de difusão, e simultaneamente melhora a diversidade e a qualidade das amostras com um peso comum de CFG (ou seja, 7,5). Apresentamos ainda diversas melhorias no espaço de design para texto para 3D, como o cronograma de tempo de destilação e a inicialização de densidade, que são ortogonais ao algoritmo de destilação, mas ainda não foram bem explorados. Nossa abordagem geral, chamada ProlificDreamer, pode gerar NeRF com alta resolução de renderização (ou seja, 512x512) e alta fidelidade, com estrutura rica e efeitos complexos (por exemplo, fumaça e gotas). Além disso, inicializados a partir de NeRF, malhas ajustadas pelo VSD são meticulosamente detalhadas e foto-realistas. Página do projeto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

English

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., 7.5). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., 512times512) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

ProlificDreamer: Geração de Texto para 3D de Alta Fidelidade e Diversidade com Distilação Variacional de Pontuação

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

Resumo

Support