ChatPaper.aiChatPaper

DreamTime: Eine verbesserte Optimierungsstrategie für die Text-zu-3D-Inhaltserstellung

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

June 21, 2023
Autoren: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI

Zusammenfassung

Text-to-Image-Diffusionsmodelle, die mit Milliarden von Bild-Text-Paaren vortrainiert wurden, haben kürzlich die Erstellung von Text-zu-3D-Inhalten ermöglicht, indem sie zufällig initialisierte Neural Radiance Fields (NeRF) mit Score Distillation optimieren. Die resultierenden 3D-Modelle weisen jedoch zwei Einschränkungen auf: (a) Qualitätsprobleme wie gesättigte Farben und das Janus-Problem; (b) extrem geringe Diversität im Vergleich zur textgesteuerten Bildsynthese. In dieser Arbeit zeigen wir, dass der Konflikt zwischen dem NeRF-Optimierungsprozess und der gleichmäßigen Zeitschritt-Abtastung in der Score Distillation die Hauptursache für diese Einschränkungen ist. Um diesen Konflikt zu lösen, schlagen wir vor, die Zeitschritt-Abtastung mit monoton nicht ansteigenden Funktionen zu priorisieren, wodurch die NeRF-Optimierung mit dem Abtastprozess des Diffusionsmodells in Einklang gebracht wird. Umfangreiche Experimente zeigen, dass unser einfaches Redesign die Text-zu-3D-Inhaltserstellung deutlich verbessert, mit höherer Qualität und Diversität.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled text-to-3D content creation by optimizing a randomly initialized Neural Radiance Fields (NeRF) with score distillation. However, the resultant 3D models exhibit two limitations: (a) quality concerns such as saturated color and the Janus problem; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between NeRF optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns NeRF optimization with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves text-to-3D content creation with higher quality and diversity.
PDF121December 15, 2024