ProlificDreamer : Génération 3D haute fidélité et diversifiée à partir de texte grâce à la distillation variationnelle de scores
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
May 25, 2023
Auteurs: Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu
cs.AI
Résumé
Le Score Distillation Sampling (SDS) a montré un grand potentiel dans la génération de texte-à-3D en distillant des modèles de diffusion pré-entraînés à grande échelle de texte-à-image, mais souffre de problèmes de sursaturation, de lissage excessif et de faible diversité. Dans ce travail, nous proposons de modéliser le paramètre 3D comme une variable aléatoire plutôt que comme une constante comme dans le SDS, et présentons la Variational Score Distillation (VSD), un cadre variationnel basé sur des particules pour expliquer et résoudre les problèmes susmentionnés dans la génération de texte-à-3D. Nous montrons que le SDS est un cas particulier de la VSD et conduit à des échantillons de mauvaise qualité avec des poids CFG petits et grands. En comparaison, la VSD fonctionne bien avec divers poids CFG comme l'échantillonnage ancestral à partir de modèles de diffusion, et améliore simultanément la diversité et la qualité des échantillons avec un poids CFG commun (c'est-à-dire 7,5). Nous présentons également diverses améliorations dans l'espace de conception pour le texte-à-3D, telles que le calendrier de distillation et l'initialisation de la densité, qui sont orthogonales à l'algorithme de distillation mais peu explorées. Notre approche globale, baptisée ProlificDreamer, peut générer une résolution de rendu élevée (c'est-à-dire 512×512) et un NeRF de haute fidélité avec une structure riche et des effets complexes (par exemple, fumée et gouttes). De plus, initialisé à partir de NeRF, les maillages affinés par la VSD sont méticuleusement détaillés et photo-réalistes. Page du projet : https://ml.cs.tsinghua.edu.cn/prolificdreamer/
English
Score distillation sampling (SDS) has shown great promise in text-to-3D
generation by distilling pretrained large-scale text-to-image diffusion models,
but suffers from over-saturation, over-smoothing, and low-diversity problems.
In this work, we propose to model the 3D parameter as a random variable instead
of a constant as in SDS and present variational score distillation (VSD), a
principled particle-based variational framework to explain and address the
aforementioned issues in text-to-3D generation. We show that SDS is a special
case of VSD and leads to poor samples with both small and large CFG weights. In
comparison, VSD works well with various CFG weights as ancestral sampling from
diffusion models and simultaneously improves the diversity and sample quality
with a common CFG weight (i.e., 7.5). We further present various improvements
in the design space for text-to-3D such as distillation time schedule and
density initialization, which are orthogonal to the distillation algorithm yet
not well explored. Our overall approach, dubbed ProlificDreamer, can generate
high rendering resolution (i.e., 512times512) and high-fidelity NeRF with
rich structure and complex effects (e.g., smoke and drops). Further,
initialized from NeRF, meshes fine-tuned by VSD are meticulously detailed and
photo-realistic. Project page: https://ml.cs.tsinghua.edu.cn/prolificdreamer/Summary
AI-Generated Summary