ProlificDreamer: Generazione Testo-3D ad Alta Fedeltà e Diversificata con Distillazione Variazionale dei Punteggi
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
May 25, 2023
Autori: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu
cs.AI
Abstract
Il campionamento per distillazione del punteggio (Score Distillation Sampling, SDS) ha dimostrato un grande potenziale nella generazione di modelli 3D a partire da testo, sfruttando modelli di diffusione pre-addestrati su larga scala per la generazione di immagini da testo. Tuttavia, questo approccio soffre di problemi come sovrasaturazione, eccessiva levigatezza e bassa diversità. In questo lavoro, proponiamo di modellare il parametro 3D come una variabile casuale anziché come una costante, come avviene in SDS, e presentiamo la distillazione variazionale del punteggio (Variational Score Distillation, VSD), un framework variazionale basato su particelle che spiega e affronta i suddetti problemi nella generazione di modelli 3D da testo. Dimostriamo che SDS è un caso particolare di VSD e produce campioni scadenti sia con pesi CFG piccoli che grandi. Al contrario, VSD funziona bene con vari pesi CFG, come il campionamento ancestrale dai modelli di diffusione, e migliora simultaneamente la diversità e la qualità dei campioni con un peso CFG comune (ad esempio, 7.5). Presentiamo inoltre vari miglioramenti nello spazio di progettazione per la generazione di modelli 3D da testo, come la pianificazione temporale della distillazione e l'inizializzazione della densità, che sono ortogonali all'algoritmo di distillazione ma non ancora ben esplorati. Il nostro approccio complessivo, denominato ProlificDreamer, è in grado di generare rendering ad alta risoluzione (ad esempio, 512x512) e NeRF ad alta fedeltà con strutture ricche ed effetti complessi (ad esempio, fumo e gocce). Inoltre, inizializzati da NeRF, i mesh raffinati da VSD sono dettagliati in modo meticoloso e fotorealistici. Pagina del progetto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
English
Score distillation sampling (SDS) has shown great promise in text-to-3D
generation by distilling pretrained large-scale text-to-image diffusion models,
but suffers from over-saturation, over-smoothing, and low-diversity problems.
In this work, we propose to model the 3D parameter as a random variable instead
of a constant as in SDS and present variational score distillation (VSD), a
principled particle-based variational framework to explain and address the
aforementioned issues in text-to-3D generation. We show that SDS is a special
case of VSD and leads to poor samples with both small and large CFG weights. In
comparison, VSD works well with various CFG weights as ancestral sampling from
diffusion models and simultaneously improves the diversity and sample quality
with a common CFG weight (i.e., 7.5). We further present various improvements
in the design space for text-to-3D such as distillation time schedule and
density initialization, which are orthogonal to the distillation algorithm yet
not well explored. Our overall approach, dubbed ProlificDreamer, can generate
high rendering resolution (i.e., 512times512) and high-fidelity NeRF with
rich structure and complex effects (e.g., smoke and drops). Further,
initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and
photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/