DreamTime: Uma Estratégia Aprimorada de Otimização para Criação de Conteúdo Texto-para-3D
DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation
June 21, 2023
Autores: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI
Resumo
Modelos de difusão texto-imagem pré-treinados em bilhões de pares imagem-texto
recentemente permitiram a criação de conteúdo 3D a partir de texto, otimizando
um Neural Radiance Fields (NeRF) inicializado aleatoriamente com destilação de
pontuação. No entanto, os modelos 3D resultantes apresentam duas limitações:
(a) problemas de qualidade, como cores saturadas e o problema de Janus; (b)
diversidade extremamente baixa em comparação com a síntese de imagens guiada
por texto. Neste artigo, mostramos que o conflito entre o processo de
otimização do NeRF e a amostragem uniforme de timesteps na destilação de
pontuação é a principal razão para essas limitações. Para resolver esse
conflito, propomos priorizar a amostragem de timesteps com funções
monotonicamente não crescentes, o que alinha a otimização do NeRF com o
processo de amostragem do modelo de difusão. Experimentos extensivos mostram
que essa simples reformulação melhora significativamente a criação de conteúdo
3D a partir de texto, com maior qualidade e diversidade.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs
have recently enabled text-to-3D content creation by optimizing a randomly
initialized Neural Radiance Fields (NeRF) with score distillation. However, the
resultant 3D models exhibit two limitations: (a) quality concerns such as
saturated color and the Janus problem; (b) extremely low diversity comparing to
text-guided image synthesis. In this paper, we show that the conflict between
NeRF optimization process and uniform timestep sampling in score distillation
is the main reason for these limitations. To resolve this conflict, we propose
to prioritize timestep sampling with monotonically non-increasing functions,
which aligns NeRF optimization with the sampling process of diffusion model.
Extensive experiments show that our simple redesign significantly improves
text-to-3D content creation with higher quality and diversity.