Distillation de Score Stable pour la Génération 3D de Haute Qualité
Stable Score Distillation for High-Quality 3D Generation
December 14, 2023
Auteurs: Boshi Tang, Jianan Wang, Zhiyong Wu, Lei Zhang
cs.AI
Résumé
Le Score Distillation Sampling (SDS) a démontré des performances remarquables dans la génération conditionnelle de contenu 3D. Cependant, une compréhension approfondie de la formulation du SDS fait encore défaut, ce qui entrave le développement de la génération 3D. Dans ce travail, nous proposons une interprétation du SDS comme une combinaison de trois composants fonctionnels : des termes de désengagement de mode, de recherche de mode et de réduction de variance, et nous analysons les propriétés de chacun. Nous montrons que des problèmes tels que le lissage excessif et la saturation des couleurs résultent de lacunes intrinsèques des termes de supervision, et nous révélons que le terme de réduction de variance introduit par le SDS est sous-optimal. De plus, nous éclairons l'adoption d'une échelle élevée de Classifier-Free Guidance (CFG) pour la génération 3D. Sur la base de cette analyse, nous proposons une approche simple mais efficace, nommée Stable Score Distillation (SSD), qui orchestre stratégiquement chaque terme pour une génération 3D de haute qualité. Des expériences approfondies valident l'efficacité de notre approche, démontrant sa capacité à générer du contenu 3D de haute fidélité sans succomber à des problèmes tels que le lissage excessif et la sursaturation, même dans des conditions de faible CFG avec la représentation NeRF la plus exigeante.
English
Score Distillation Sampling (SDS) has exhibited remarkable performance in
conditional 3D content generation. However, a comprehensive understanding of
the SDS formulation is still lacking, hindering the development of 3D
generation. In this work, we present an interpretation of SDS as a combination
of three functional components: mode-disengaging, mode-seeking and
variance-reducing terms, and analyze the properties of each. We show that
problems such as over-smoothness and color-saturation result from the intrinsic
deficiency of the supervision terms and reveal that the variance-reducing term
introduced by SDS is sub-optimal. Additionally, we shed light on the adoption
of large Classifier-Free Guidance (CFG) scale for 3D generation. Based on the
analysis, we propose a simple yet effective approach named Stable Score
Distillation (SSD) which strategically orchestrates each term for high-quality
3D generation. Extensive experiments validate the efficacy of our approach,
demonstrating its ability to generate high-fidelity 3D content without
succumbing to issues such as over-smoothness and over-saturation, even under
low CFG conditions with the most challenging NeRF representation.