ChatPaper.aiChatPaper

UniDream: Unificando Priors de Difusão para Geração de Texto-para-3D Reluzível

UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

December 14, 2023
Autores: Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang
cs.AI

Resumo

Os recentes avanços na tecnologia de geração de texto para 3D têm avançado significativamente a conversão de descrições textuais em objetos 3D imaginativos, com geometria bem definida e texturas refinadas. Apesar desses desenvolvimentos, uma limitação prevalente surge do uso de dados RGB em modelos de difusão ou reconstrução, que frequentemente resultam em modelos com efeitos intrínsecos de iluminação e sombras que prejudicam o realismo, limitando assim sua usabilidade em aplicações que exigem capacidades precisas de reiluminação. Para preencher essa lacuna, apresentamos o UniDream, um framework de geração de texto para 3D que incorpora priors de difusão unificados. Nossa abordagem consiste em três componentes principais: (1) um processo de treinamento em duas fases para obter modelos de difusão e reconstrução multi-visão alinhados com albedo-normal, (2) um procedimento de geração progressiva para geometria e texturas de albedo baseado em Amostragem de Destilação de Pontuação (SDS) utilizando os modelos de reconstrução e difusão treinados, e (3) uma aplicação inovadora de SDS para finalizar a geração de PBR mantendo um albedo fixo com base no modelo Stable Diffusion. Avaliações extensivas demonstram que o UniDream supera os métodos existentes na geração de objetos 3D com texturas de albedo mais claras, superfícies mais suaves, realismo aprimorado e capacidades superiores de reiluminação.
English
Recent advancements in text-to-3D generation technology have significantly advanced the conversion of textual descriptions into imaginative well-geometrical and finely textured 3D objects. Despite these developments, a prevalent limitation arises from the use of RGB data in diffusion or reconstruction models, which often results in models with inherent lighting and shadows effects that detract from their realism, thereby limiting their usability in applications that demand accurate relighting capabilities. To bridge this gap, we present UniDream, a text-to-3D generation framework by incorporating unified diffusion priors. Our approach consists of three main components: (1) a dual-phase training process to get albedo-normal aligned multi-view diffusion and reconstruction models, (2) a progressive generation procedure for geometry and albedo-textures based on Score Distillation Sample (SDS) using the trained reconstruction and diffusion models, and (3) an innovative application of SDS for finalizing PBR generation while keeping a fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate that UniDream surpasses existing methods in generating 3D objects with clearer albedo textures, smoother surfaces, enhanced realism, and superior relighting capabilities.
PDF111February 9, 2026