ProlificDreamer : Génération 3D haute fidélité et diversifiée à partir de texte grâce à la distillation variationnelle de scores

Résumé

Le Score Distillation Sampling (SDS) a montré un grand potentiel dans la génération de texte-à-3D en distillant des modèles de diffusion pré-entraînés à grande échelle de texte-à-image, mais souffre de problèmes de sursaturation, de lissage excessif et de faible diversité. Dans ce travail, nous proposons de modéliser le paramètre 3D comme une variable aléatoire plutôt que comme une constante comme dans le SDS, et présentons la Variational Score Distillation (VSD), un cadre variationnel basé sur des particules pour expliquer et résoudre les problèmes susmentionnés dans la génération de texte-à-3D. Nous montrons que le SDS est un cas particulier de la VSD et conduit à des échantillons de mauvaise qualité avec des poids CFG petits et grands. En comparaison, la VSD fonctionne bien avec divers poids CFG comme l'échantillonnage ancestral à partir de modèles de diffusion, et améliore simultanément la diversité et la qualité des échantillons avec un poids CFG commun (c'est-à-dire 7,5). Nous présentons également diverses améliorations dans l'espace de conception pour le texte-à-3D, telles que le calendrier de distillation et l'initialisation de la densité, qui sont orthogonales à l'algorithme de distillation mais peu explorées. Notre approche globale, baptisée ProlificDreamer, peut générer une résolution de rendu élevée (c'est-à-dire 512×512) et un NeRF de haute fidélité avec une structure riche et des effets complexes (par exemple, fumée et gouttes). De plus, initialisé à partir de NeRF, les maillages affinés par la VSD sont méticuleusement détaillés et photo-réalistes. Page du projet : https://ml.cs.tsinghua.edu.cn/prolificdreamer/

English

Score distillation sampling (SDS) has shown great promise in text-to-3D generation by distilling pretrained large-scale text-to-image diffusion models, but suffers from over-saturation, over-smoothing, and low-diversity problems. In this work, we propose to model the 3D parameter as a random variable instead of a constant as in SDS and present variational score distillation (VSD), a principled particle-based variational framework to explain and address the aforementioned issues in text-to-3D generation. We show that SDS is a special case of VSD and leads to poor samples with both small and large CFG weights. In comparison, VSD works well with various CFG weights as ancestral sampling from diffusion models and simultaneously improves the diversity and sample quality with a common CFG weight (i.e., 7.5). We further present various improvements in the design space for text-to-3D such as distillation time schedule and density initialization, which are orthogonal to the distillation algorithm yet not well explored. Our overall approach, dubbed ProlificDreamer, can generate high rendering resolution (i.e., 512times512) and high-fidelity NeRF with rich structure and complex effects (e.g., smoke and drops). Further, initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

ProlificDreamer : Génération 3D haute fidélité et diversifiée à partir de texte grâce à la distillation variationnelle de scores

ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

Résumé

Summary

Support

Support