Sherpa3D: Potenciando la Generación de Texto a 3D de Alta Fidelidad mediante un Prior 3D Grueso
Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior
December 11, 2023
Autores: Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan
cs.AI
Resumen
Recientemente, la creación de contenido 3D a partir de indicaciones de texto ha demostrado un progreso notable al utilizar modelos de difusión 2D y 3D. Si bien los modelos de difusión 3D garantizan una gran consistencia multi-vista, su capacidad para generar activos 3D de alta calidad y diversidad se ve limitada por la escasez de datos 3D. En contraste, los modelos de difusión 2D adoptan un enfoque de destilación que logra una excelente generalización y detalles ricos sin necesidad de datos 3D. Sin embargo, los métodos de elevación 2D sufren de una ambigüedad inherente agnóstica a la vista, lo que conduce a serios problemas de múltiples caras (Janus), donde las indicaciones de texto no proporcionan suficiente orientación para aprender resultados 3D coherentes. En lugar de reentrenar un costoso modelo consciente del punto de vista, estudiamos cómo explotar completamente el conocimiento 3D grueso de fácil acceso para mejorar las indicaciones y guiar la optimización de elevación 2D para su refinamiento. En este artículo, proponemos Sherpa3D, un nuevo marco de texto a 3D que logra simultáneamente alta fidelidad, generalización y consistencia geométrica. Específicamente, diseñamos un par de estrategias de guía derivadas del conocimiento 3D grueso generado por el modelo de difusión 3D: una guía estructural para la fidelidad geométrica y una guía semántica para la coherencia 3D. Al emplear estos dos tipos de guía, el modelo de difusión 2D enriquece el contenido 3D con resultados diversificados y de alta calidad. Experimentos extensos muestran la superioridad de nuestro Sherpa3D sobre los métodos de texto a 3D más avanzados en términos de calidad y consistencia 3D.
English
Recently, 3D content creation from text prompts has demonstrated remarkable
progress by utilizing 2D and 3D diffusion models. While 3D diffusion models
ensure great multi-view consistency, their ability to generate high-quality and
diverse 3D assets is hindered by the limited 3D data. In contrast, 2D diffusion
models find a distillation approach that achieves excellent generalization and
rich details without any 3D data. However, 2D lifting methods suffer from
inherent view-agnostic ambiguity thereby leading to serious multi-face Janus
issues, where text prompts fail to provide sufficient guidance to learn
coherent 3D results. Instead of retraining a costly viewpoint-aware model, we
study how to fully exploit easily accessible coarse 3D knowledge to enhance the
prompts and guide 2D lifting optimization for refinement. In this paper, we
propose Sherpa3D, a new text-to-3D framework that achieves high-fidelity,
generalizability, and geometric consistency simultaneously. Specifically, we
design a pair of guiding strategies derived from the coarse 3D prior generated
by the 3D diffusion model: a structural guidance for geometric fidelity and a
semantic guidance for 3D coherence. Employing the two types of guidance, the 2D
diffusion model enriches the 3D content with diversified and high-quality
results. Extensive experiments show the superiority of our Sherpa3D over the
state-of-the-art text-to-3D methods in terms of quality and 3D consistency.