ChatPaper.aiChatPaper

DreamTime: Una Estrategia de Optimización Mejorada para la Creación de Contenido de Texto a 3D

DreamTime: An Improved Optimization Strategy for Text-to-3D Content Creation

June 21, 2023
Autores: Yukun Huang, Jianan Wang, Yukai Shi, Xianbiao Qi, Zheng-Jun Zha, Lei Zhang
cs.AI

Resumen

Los modelos de difusión de texto a imagen preentrenados en miles de millones de pares imagen-texto han permitido recientemente la creación de contenido 3D a partir de texto mediante la optimización de campos de radiancia neural (NeRF) inicializados aleatoriamente utilizando la destilación de puntuación. Sin embargo, los modelos 3D resultantes presentan dos limitaciones: (a) problemas de calidad, como colores saturados y el problema de Janus; (b) una diversidad extremadamente baja en comparación con la síntesis de imágenes guiada por texto. En este artículo, demostramos que el conflicto entre el proceso de optimización de NeRF y el muestreo uniforme de pasos temporales en la destilación de puntuación es la principal razón de estas limitaciones. Para resolver este conflicto, proponemos priorizar el muestreo de pasos temporales con funciones monótonas no crecientes, lo que alinea la optimización de NeRF con el proceso de muestreo del modelo de difusión. Experimentos exhaustivos muestran que este rediseño simple mejora significativamente la creación de contenido 3D a partir de texto, logrando mayor calidad y diversidad.
English
Text-to-image diffusion models pre-trained on billions of image-text pairs have recently enabled text-to-3D content creation by optimizing a randomly initialized Neural Radiance Fields (NeRF) with score distillation. However, the resultant 3D models exhibit two limitations: (a) quality concerns such as saturated color and the Janus problem; (b) extremely low diversity comparing to text-guided image synthesis. In this paper, we show that the conflict between NeRF optimization process and uniform timestep sampling in score distillation is the main reason for these limitations. To resolve this conflict, we propose to prioritize timestep sampling with monotonically non-increasing functions, which aligns NeRF optimization with the sampling process of diffusion model. Extensive experiments show that our simple redesign significantly improves text-to-3D content creation with higher quality and diversity.
PDF121December 15, 2024