DreamTime: Una Strategia di Ottimizzazione Migliorata per la Creazione di Contenuti da Testo a 3D
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation
June 21, 2023
Autori: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI
Abstract
I modelli di diffusione testo-immagine pre-addestrati su miliardi di coppie immagine-testo hanno recentemente reso possibile la creazione di contenuti 3D a partire da testo, ottimizzando un campo di radianza neurale (NeRF) inizializzato casualmente attraverso la distillazione del punteggio. Tuttavia, i modelli 3D risultanti presentano due limitazioni: (a) problemi di qualità come colori saturi e il problema di Janus; (b) una diversità estremamente bassa rispetto alla sintesi di immagini guidata da testo. In questo articolo, dimostriamo che il conflitto tra il processo di ottimizzazione del NeRF e il campionamento uniforme dei passaggi temporali nella distillazione del punteggio è la causa principale di queste limitazioni. Per risolvere questo conflitto, proponiamo di dare priorità al campionamento dei passaggi temporali utilizzando funzioni monotonicamente non crescenti, allineando così l'ottimizzazione del NeRF con il processo di campionamento del modello di diffusione. Esperimenti estesi dimostrano che questa semplice riprogettazione migliora significativamente la creazione di contenuti 3D a partire da testo, con una qualità e una diversità maggiori.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs
have recently enabled text-to-3D content creation by optimizing a randomly
initialized Neural Radiance Fields (NeRF) with score distillation. However, the
resultant 3D models exhibit two limitations: (a) quality concerns such as
saturated color and the Janus problem; (b) extremely low diversity comparing to
text-guided image synthesis. In this paper, we show that the conflict between
NeRF optimization process and uniform timestep sampling in score distillation
is the main reason for these limitations. To resolve this conflict, we propose
to prioritize timestep sampling with monotonically non-increasing functions,
which aligns NeRF optimization with the sampling process of diffusion model.
Extensive experiments show that our simple redesign significantly improves
text-to-3D content creation with higher quality and diversity.