ChatPaper.aiChatPaper

StableDreamer: Domando el Muestreo de Destilación de Puntuaciones Ruidosas para la Generación de 3D a partir de Texto

StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D

December 2, 2023
Autores: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI

Resumen

En el ámbito de la generación de texto a 3D, el uso de modelos de difusión 2D a través del muestreo por destilación de puntuación (SDS, por sus siglas en inglés) frecuentemente conduce a problemas como apariencias borrosas y geometrías multifacéticas, principalmente debido a la naturaleza intrínsecamente ruidosa de la pérdida SDS. Nuestro análisis identifica el núcleo de estos desafíos en la interacción entre los niveles de ruido en el proceso de difusión 2D, la arquitectura de la red de difusión y la representación del modelo 3D. Para superar estas limitaciones, presentamos StableDreamer, una metodología que incorpora tres avances. Primero, inspirados por InstructNeRF2NeRF, formalizamos la equivalencia del prior generativo SDS y una simple pérdida de reconstrucción supervisada L2. Este hallazgo proporciona una herramienta novedosa para depurar SDS, que utilizamos para demostrar el impacto de los niveles de ruido con atenuación temporal en la reducción de geometrías multifacéticas. Segundo, nuestro análisis muestra que, aunque la difusión en el espacio de imagen contribuye a la precisión geométrica, la difusión en el espacio latente es crucial para una reproducción de colores vívida. Basándonos en esta observación, StableDreamer introduce una estrategia de entrenamiento en dos etapas que combina efectivamente estos aspectos, resultando en modelos 3D de alta fidelidad. Tercero, adoptamos una representación de gaussianas 3D anisotrópicas, reemplazando los Campos de Radiancia Neural (NeRFs), para mejorar la calidad general, reducir el uso de memoria durante el entrenamiento, acelerar las velocidades de renderizado y capturar mejor objetos semitransparentes. StableDreamer reduce las geometrías multifacéticas, genera detalles finos y converge de manera estable.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through score distillation sampling (SDS) frequently leads to issues such as blurred appearances and multi-faced geometry, primarily due to the intrinsically noisy nature of the SDS loss. Our analysis identifies the core of these challenges as the interaction among noise levels in the 2D diffusion process, the architecture of the diffusion network, and the 3D model representation. To overcome these limitations, we present StableDreamer, a methodology incorporating three advances. First, inspired by InstructNeRF2NeRF, we formalize the equivalence of the SDS generative prior and a simple supervised L2 reconstruction loss. This finding provides a novel tool to debug SDS, which we use to show the impact of time-annealing noise levels on reducing multi-faced geometries. Second, our analysis shows that while image-space diffusion contributes to geometric precision, latent-space diffusion is crucial for vivid color rendition. Based on this observation, StableDreamer introduces a two-stage training strategy that effectively combines these aspects, resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance the overall quality, reduce memory usage during training, and accelerate rendering speeds, and better capture semi-transparent objects. StableDreamer reduces multi-face geometries, generates fine details, and converges stably.
PDF113December 15, 2024