ChatPaper.aiChatPaper

StableDreamer : Maîtriser l'échantillonnage de distillation de score bruité pour la génération de texte-à-3D

StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D

December 2, 2023
Auteurs: Pengsheng Guo, Hans Hao, Adam Caccavale, Zhongzheng Ren, Edward Zhang, Qi Shan, Aditya Sankar, Alexander G. Schwing, Alex Colburn, Fangchang Ma
cs.AI

Résumé

Dans le domaine de la génération de texte-à-3D, l'utilisation de modèles de diffusion 2D via l'échantillonnage par distillation de score (SDS) entraîne fréquemment des problèmes tels que des apparences floues et des géométries multi-faces, principalement en raison de la nature intrinsèquement bruyante de la perte SDS. Notre analyse identifie le cœur de ces défis comme étant l'interaction entre les niveaux de bruit dans le processus de diffusion 2D, l'architecture du réseau de diffusion et la représentation du modèle 3D. Pour surmonter ces limitations, nous présentons StableDreamer, une méthodologie intégrant trois avancées. Premièrement, inspiré par InstructNeRF2NeRF, nous formalisons l'équivalence entre le prior génératif SDS et une simple perte de reconstruction supervisée L2. Cette découverte fournit un nouvel outil pour déboguer SDS, que nous utilisons pour montrer l'impact des niveaux de bruit temporellement décroissants sur la réduction des géométries multi-faces. Deuxièmement, notre analyse montre que si la diffusion dans l'espace image contribue à la précision géométrique, la diffusion dans l'espace latent est cruciale pour un rendu coloré vivant. Sur la base de cette observation, StableDreamer introduit une stratégie d'entraînement en deux étapes qui combine efficacement ces aspects, aboutissant à des modèles 3D de haute fidélité. Troisièmement, nous adoptons une représentation anisotropique de Gaussiennes 3D, remplaçant les Champs de Radiance Neuronaux (NeRFs), pour améliorer la qualité globale, réduire l'utilisation de la mémoire pendant l'entraînement, accélérer les vitesses de rendu et mieux capturer les objets semi-transparents. StableDreamer réduit les géométries multi-faces, génère des détails fins et converge de manière stable.
English
In the realm of text-to-3D generation, utilizing 2D diffusion models through score distillation sampling (SDS) frequently leads to issues such as blurred appearances and multi-faced geometry, primarily due to the intrinsically noisy nature of the SDS loss. Our analysis identifies the core of these challenges as the interaction among noise levels in the 2D diffusion process, the architecture of the diffusion network, and the 3D model representation. To overcome these limitations, we present StableDreamer, a methodology incorporating three advances. First, inspired by InstructNeRF2NeRF, we formalize the equivalence of the SDS generative prior and a simple supervised L2 reconstruction loss. This finding provides a novel tool to debug SDS, which we use to show the impact of time-annealing noise levels on reducing multi-faced geometries. Second, our analysis shows that while image-space diffusion contributes to geometric precision, latent-space diffusion is crucial for vivid color rendition. Based on this observation, StableDreamer introduces a two-stage training strategy that effectively combines these aspects, resulting in high-fidelity 3D models. Third, we adopt an anisotropic 3D Gaussians representation, replacing Neural Radiance Fields (NeRFs), to enhance the overall quality, reduce memory usage during training, and accelerate rendering speeds, and better capture semi-transparent objects. StableDreamer reduces multi-face geometries, generates fine details, and converges stably.
PDF113December 15, 2024