ProlificDreamer: Generación de Texto a 3D de Alta Fidelidad y Diversidad con Distilación de Puntuación Variacional

Resumen

El muestreo por destilación de puntuación (SDS, por sus siglas en inglés) ha demostrado un gran potencial en la generación de texto a 3D al destilar modelos de difusión de texto a imagen preentrenados a gran escala, pero sufre problemas de sobresaturación, suavizado excesivo y baja diversidad. En este trabajo, proponemos modelar el parámetro 3D como una variable aleatoria en lugar de una constante, como se hace en SDS, y presentamos la destilación de puntuación variacional (VSD, por sus siglas en inglés), un marco variacional basado en partículas que aborda de manera fundamentada los problemas mencionados en la generación de texto a 3D. Demostramos que SDS es un caso especial de VSD y produce muestras deficientes tanto con pesos pequeños como grandes en la guía de clasificación libre (CFG, por sus siglas en inglés). En comparación, VSD funciona bien con diversos pesos de CFG, similar al muestreo ancestral en modelos de difusión, y mejora simultáneamente la diversidad y la calidad de las muestras con un peso común de CFG (es decir, 7.5). Además, presentamos varias mejoras en el espacio de diseño para la generación de texto a 3D, como la programación del tiempo de destilación y la inicialización de densidad, que son ortogonales al algoritmo de destilación pero no han sido bien exploradas. Nuestro enfoque general, denominado ProlificDreamer, puede generar representaciones de alta resolución (es decir, 512x512) y NeRF de alta fidelidad con estructuras ricas y efectos complejos (por ejemplo, humo y gotas). Además, inicializados a partir de NeRF, las mallas ajustadas mediante VSD presentan detalles meticulosos y un aspecto fotorrealista. Página del proyecto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

English

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., 7.5). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., 512times512) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

ProlificDreamer: Generación de Texto a 3D de Alta Fidelidad y Diversidad con Distilación de Puntuación Variacional

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

Resumen

Summary

Support

Support