ProlificDreamer: Generación de Texto a 3D de Alta Fidelidad y Diversidad con Distilación de Puntuación Variacional
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
May 25, 2023
Autores: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu
cs.AI
Resumen
El muestreo por destilación de puntuación (SDS, por sus siglas en inglés) ha demostrado un gran potencial en la generación de texto a 3D al destilar modelos de difusión de texto a imagen preentrenados a gran escala, pero sufre problemas de sobresaturación, suavizado excesivo y baja diversidad. En este trabajo, proponemos modelar el parámetro 3D como una variable aleatoria en lugar de una constante, como se hace en SDS, y presentamos la destilación de puntuación variacional (VSD, por sus siglas en inglés), un marco variacional basado en partículas que aborda de manera fundamentada los problemas mencionados en la generación de texto a 3D. Demostramos que SDS es un caso especial de VSD y produce muestras deficientes tanto con pesos pequeños como grandes en la guía de clasificación libre (CFG, por sus siglas en inglés). En comparación, VSD funciona bien con diversos pesos de CFG, similar al muestreo ancestral en modelos de difusión, y mejora simultáneamente la diversidad y la calidad de las muestras con un peso común de CFG (es decir, 7.5). Además, presentamos varias mejoras en el espacio de diseño para la generación de texto a 3D, como la programación del tiempo de destilación y la inicialización de densidad, que son ortogonales al algoritmo de destilación pero no han sido bien exploradas. Nuestro enfoque general, denominado ProlificDreamer, puede generar representaciones de alta resolución (es decir, 512x512) y NeRF de alta fidelidad con estructuras ricas y efectos complejos (por ejemplo, humo y gotas). Además, inicializados a partir de NeRF, las mallas ajustadas mediante VSD presentan detalles meticulosos y un aspecto fotorrealista. Página del proyecto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
English
Score distillation sampling (SDS) has shown great promise in text-to-3D
generation by distilling pretrained large-scale text-to-image diffusion models,
but suffers from over-saturation, over-smoothing, and low-diversity problems.
In this work, we propose to model the 3D parameter as a random variable instead
of a constant as in SDS and present variational score distillation (VSD), a
principled particle-based variational framework to explain and address the
aforementioned issues in text-to-3D generation. We show that SDS is a special
case of VSD and leads to poor samples with both small and large CFG weights. In
comparison, VSD works well with various CFG weights as ancestral sampling from
diffusion models and simultaneously improves the diversity and sample quality
with a common CFG weight (i.e., 7.5). We further present various improvements
in the design space for text-to-3D such as distillation time schedule and
density initialization, which are orthogonal to the distillation algorithm yet
not well explored. Our overall approach, dubbed ProlificDreamer, can generate
high rendering resolution (i.e., 512times512) and high-fidelity NeRF with
rich structure and complex effects (e.g., smoke and drops). Further,
initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and
photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/Summary
AI-Generated Summary