ProlificDreamer: Generazione Testo-3D ad Alta Fedeltà e Diversificata con Distillazione Variazionale dei Punteggi

Abstract

Il campionamento per distillazione del punteggio (Score Distillation Sampling, SDS) ha dimostrato un grande potenziale nella generazione di modelli 3D a partire da testo, sfruttando modelli di diffusione pre-addestrati su larga scala per la generazione di immagini da testo. Tuttavia, questo approccio soffre di problemi come sovrasaturazione, eccessiva levigatezza e bassa diversità. In questo lavoro, proponiamo di modellare il parametro 3D come una variabile casuale anziché come una costante, come avviene in SDS, e presentiamo la distillazione variazionale del punteggio (Variational Score Distillation, VSD), un framework variazionale basato su particelle che spiega e affronta i suddetti problemi nella generazione di modelli 3D da testo. Dimostriamo che SDS è un caso particolare di VSD e produce campioni scadenti sia con pesi CFG piccoli che grandi. Al contrario, VSD funziona bene con vari pesi CFG, come il campionamento ancestrale dai modelli di diffusione, e migliora simultaneamente la diversità e la qualità dei campioni con un peso CFG comune (ad esempio, 7.5). Presentiamo inoltre vari miglioramenti nello spazio di progettazione per la generazione di modelli 3D da testo, come la pianificazione temporale della distillazione e l'inizializzazione della densità, che sono ortogonali all'algoritmo di distillazione ma non ancora ben esplorati. Il nostro approccio complessivo, denominato ProlificDreamer, è in grado di generare rendering ad alta risoluzione (ad esempio, 512x512) e NeRF ad alta fedeltà con strutture ricche ed effetti complessi (ad esempio, fumo e gocce). Inoltre, inizializzati da NeRF, i mesh raffinati da VSD sono dettagliati in modo meticoloso e fotorealistici. Pagina del progetto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

English

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., 7.5). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., 512times512) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

ProlificDreamer: Generazione Testo-3D ad Alta Fedeltà e Diversificata con Distillazione Variazionale dei Punteggi

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

Abstract

Support