HiFA: Generación de Texto a 3D de Alta Fidelidad con Guía Avanzada de Difusión

Resumen

La síntesis automática de texto a 3D ha logrado avances notables a través de la optimización de modelos 3D. Los métodos existentes comúnmente dependen de modelos generativos de texto a imagen preentrenados, como los modelos de difusión, que proporcionan puntuaciones para representaciones 2D de Campos de Radiancia Neural (NeRFs) y se utilizan para optimizar NeRFs. Sin embargo, estos métodos a menudo encuentran artefactos e inconsistencias en múltiples vistas debido a su comprensión limitada de la geometría 3D. Para abordar estas limitaciones, proponemos una reformulación de la pérdida de optimización utilizando el prior de difusión. Además, introducimos un enfoque de entrenamiento novedoso que desbloquea el potencial del prior de difusión. Para mejorar la representación de la geometría 3D, aplicamos supervisión auxiliar de profundidad para imágenes renderizadas por NeRF y regularizamos el campo de densidad de los NeRFs. Experimentos extensivos demuestran la superioridad de nuestro método sobre trabajos anteriores, resultando en un fotorrealismo avanzado y una mejor consistencia multi-vista.

English

Automatic text-to-3D synthesis has achieved remarkable advancements through the optimization of 3D models. Existing methods commonly rely on pre-trained text-to-image generative models, such as diffusion models, providing scores for 2D renderings of Neural Radiance Fields (NeRFs) and being utilized for optimizing NeRFs. However, these methods often encounter artifacts and inconsistencies across multiple views due to their limited understanding of 3D geometry. To address these limitations, we propose a reformulation of the optimization loss using the diffusion prior. Furthermore, we introduce a novel training approach that unlocks the potential of the diffusion prior. To improve 3D geometry representation, we apply auxiliary depth supervision for NeRF-rendered images and regularize the density field of NeRFs. Extensive experiments demonstrate the superiority of our method over prior works, resulting in advanced photo-realism and improved multi-view consistency.

HiFA: Generación de Texto a 3D de Alta Fidelidad con Guía Avanzada de Difusión

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance

Resumen

Support