DreamTime: Una Strategia di Ottimizzazione Migliorata per la Creazione di Contenuti da Testo a 3D

Abstract

I modelli di diffusione testo-immagine pre-addestrati su miliardi di coppie immagine-testo hanno recentemente reso possibile la creazione di contenuti 3D a partire da testo, ottimizzando un campo di radianza neurale (NeRF) inizializzato casualmente attraverso la distillazione del punteggio. Tuttavia, i modelli 3D risultanti presentano due limitazioni: (a) problemi di qualità come colori saturi e il problema di Janus; (b) una diversità estremamente bassa rispetto alla sintesi di immagini guidata da testo. In questo articolo, dimostriamo che il conflitto tra il processo di ottimizzazione del NeRF e il campionamento uniforme dei passaggi temporali nella distillazione del punteggio è la causa principale di queste limitazioni. Per risolvere questo conflitto, proponiamo di dare priorità al campionamento dei passaggi temporali utilizzando funzioni monotonicamente non crescenti, allineando così l'ottimizzazione del NeRF con il processo di campionamento del modello di diffusione. Esperimenti estesi dimostrano che questa semplice riprogettazione migliora significativamente la creazione di contenuti 3D a partire da testo, con una qualità e una diversità maggiori.

English

Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled text-to-3D content creation by optimizing a randomly initialized Neural Radiance Fields (NeRF) with score distillation. However, the resultant 3D models exhibit two limitations: (a) quality concerns such as saturated color and the Janus problem; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between NeRF optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns NeRF optimization with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves text-to-3D content creation with higher quality and diversity.

DreamTime: Una Strategia di Ottimizzazione Migliorata per la Creazione di Contenuti da Testo a 3D

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

Abstract

Support