DreamTime : Une stratégie d'optimisation améliorée pour la création de contenu texte-3D
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation
June 21, 2023
Auteurs: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI
Résumé
Les modèles de diffusion texte-image pré-entraînés sur des milliards de paires image-texte ont récemment permis la création de contenu 3D à partir de texte en optimisant un champ de radiance neuronale (NeRF) initialisé aléatoirement par distillation de score. Cependant, les modèles 3D résultants présentent deux limitations : (a) des problèmes de qualité tels que des couleurs saturées et le problème de Janus ; (b) une diversité extrêmement faible par rapport à la synthèse d'images guidée par texte. Dans cet article, nous montrons que le conflit entre le processus d'optimisation du NeRF et l'échantillonnage uniforme des pas de temps dans la distillation de score est la principale raison de ces limitations. Pour résoudre ce conflit, nous proposons de prioriser l'échantillonnage des pas de temps avec des fonctions monotones non croissantes, ce qui aligne l'optimisation du NeRF avec le processus d'échantillonnage du modèle de diffusion. Des expériences approfondies montrent que cette simple redéfinition améliore significativement la création de contenu 3D à partir de texte, avec une qualité et une diversité accrues.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs
have recently enabled text-to-3D content creation by optimizing a randomly
initialized Neural Radiance Fields (NeRF) with score distillation. However, the
resultant 3D models exhibit two limitations: (a) quality concerns such as
saturated color and the Janus problem; (b) extremely low diversity comparing to
text-guided image synthesis. In this paper, we show that the conflict between
NeRF optimization process and uniform timestep sampling in score distillation
is the main reason for these limitations. To resolve this conflict, we propose
to prioritize timestep sampling with monotonically non-increasing functions,
which aligns NeRF optimization with the sampling process of diffusion model.
Extensive experiments show that our simple redesign significantly improves
text-to-3D content creation with higher quality and diversity.