UniDream: Unificación de Priores de Difusión para la Generación de Texto a 3D Relumbrante
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
December 14, 2023
Autores: Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang
cs.AI
Resumen
Los recientes avances en la tecnología de generación de texto a 3D han impulsado significativamente la conversión de descripciones textuales en objetos 3D imaginativos, con geometrías bien definidas y texturas refinadas. A pesar de estos progresos, una limitación común surge del uso de datos RGB en modelos de difusión o reconstrucción, lo que a menudo resulta en modelos con efectos inherentes de iluminación y sombras que reducen su realismo, limitando así su utilidad en aplicaciones que requieren capacidades precisas de reiluminación. Para abordar esta brecha, presentamos UniDream, un marco de generación de texto a 3D que incorpora prioridades de difusión unificadas. Nuestro enfoque consta de tres componentes principales: (1) un proceso de entrenamiento en dos fases para obtener modelos de difusión y reconstrucción multi-vista alineados con albedo-normal, (2) un procedimiento de generación progresiva para geometría y texturas de albedo basado en la Muestra de Destilación de Puntaje (SDS) utilizando los modelos de reconstrucción y difusión entrenados, y (3) una aplicación innovadora de SDS para finalizar la generación de PBR manteniendo un albedo fijo basado en el modelo Stable Diffusion. Evaluaciones exhaustivas demuestran que UniDream supera a los métodos existentes en la generación de objetos 3D con texturas de albedo más claras, superficies más suaves, mayor realismo y capacidades superiores de reiluminación.
English
Recent advancements in text-to-3D generation technology have significantly
advanced the conversion of textual descriptions into imaginative
well-geometrical and finely textured 3D objects. Despite these developments, a
prevalent limitation arises from the use of RGB data in diffusion or
reconstruction models, which often results in models with inherent lighting and
shadows effects that detract from their realism, thereby limiting their
usability in applications that demand accurate relighting capabilities. To
bridge this gap, we present UniDream, a text-to-3D generation framework by
incorporating unified diffusion priors. Our approach consists of three main
components: (1) a dual-phase training process to get albedo-normal aligned
multi-view diffusion and reconstruction models, (2) a progressive generation
procedure for geometry and albedo-textures based on Score Distillation Sample
(SDS) using the trained reconstruction and diffusion models, and (3) an
innovative application of SDS for finalizing PBR generation while keeping a
fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate
that UniDream surpasses existing methods in generating 3D objects with clearer
albedo textures, smoother surfaces, enhanced realism, and superior relighting
capabilities.