ProlificDreamer: Hoogwaardige en diverse tekst-naar-3D-generatie met Variational Score Distillation

Samenvatting

Score distillation sampling (SDS) heeft veelbelovende resultaten getoond in tekst-naar-3D-generatie door het distilleren van vooraf getrainde grootschalige tekst-naar-beeld diffusiemodellen, maar lijdt onder problemen zoals oververzadiging, overmatige gladheid en lage diversiteit. In dit werk stellen we voor om de 3D-parameter te modelleren als een willekeurige variabele in plaats van een constante zoals in SDS, en introduceren we variational score distillation (VSD), een principieel op deeltjes gebaseerd variatieraamwerk om de bovengenoemde problemen in tekst-naar-3D-generatie te verklaren en aan te pakken. We laten zien dat SDS een speciaal geval is van VSD en leidt tot slechte samples bij zowel kleine als grote CFG-gewichten. In vergelijking werkt VSD goed met verschillende CFG-gewichten als ancestrale sampling van diffusiemodellen en verbetert het tegelijkertijd de diversiteit en samplekwaliteit met een gemeenschappelijk CFG-gewicht (d.w.z. 7,5). We presenteren verder diverse verbeteringen in het ontwerpruimte voor tekst-naar-3D, zoals het distillatieschema en dichtheidsinitialisatie, die orthogonaal zijn aan het distillatiealgoritme maar nog niet goed zijn onderzocht. Onze algehele aanpak, genaamd ProlificDreamer, kan hoogrenderende resoluties (d.w.z. 512×512) en hoogwaardige NeRF genereren met rijke structuren en complexe effecten (bijv. rook en druppels). Bovendien zijn meshes, geïnitialiseerd vanuit NeRF en verfijnd door VSD, uiterst gedetailleerd en foto-realistisch. Projectpagina: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

English

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., 7.5). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., 512times512) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

ProlificDreamer: Hoogwaardige en diverse tekst-naar-3D-generatie met Variational Score Distillation

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

Samenvatting

Support