UniDream: Het verenigen van diffusie-priors voor herbelichtbare tekst-naar-3D-generatie
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
December 14, 2023
Auteurs: Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-3D-generatietechnologie heeft de omzetting van tekstuele beschrijvingen naar fantasierijke, goed-geometrische en fijn getextureerde 3D-objecten aanzienlijk verbeterd. Ondanks deze ontwikkelingen ontstaat een veelvoorkomende beperking door het gebruik van RGB-gegevens in diffusie- of reconstructiemodellen, wat vaak resulteert in modellen met inherente belichtings- en schaduweffecten die afbreuk doen aan hun realisme, waardoor hun bruikbaarheid in toepassingen die nauwkeurige herbelichtingsmogelijkheden vereisen, wordt beperkt. Om deze kloof te overbruggen, presenteren we UniDream, een tekst-naar-3D-generatieraamwerk door het integreren van verenigde diffusiepriors. Onze aanpak bestaat uit drie hoofdcomponenten: (1) een tweefasig trainingsproces om albedo-normaal uitgelijnde multi-view diffusie- en reconstructiemodellen te verkrijgen, (2) een progressief generatieproces voor geometrie en albedo-texturen gebaseerd op Score Distillation Sample (SDS) met behulp van de getrainde reconstructie- en diffusiemodellen, en (3) een innovatieve toepassing van SDS voor het finaliseren van PBR-generatie terwijl een vast albedo wordt aangehouden op basis van het Stable Diffusion-model. Uitgebreide evaluaties tonen aan dat UniDream bestaande methoden overtreft in het genereren van 3D-objecten met duidelijkere albedo-texturen, gladder oppervlak, verbeterd realisme en superieure herbelichtingsmogelijkheden.
English
Recent advancements in text-to-3D generation technology have significantly
advanced the conversion of textual descriptions into imaginative
well-geometrical and finely textured 3D objects. Despite these developments, a
prevalent limitation arises from the use of RGB data in diffusion or
reconstruction models, which often results in models with inherent lighting and
shadows effects that detract from their realism, thereby limiting their
usability in applications that demand accurate relighting capabilities. To
bridge this gap, we present UniDream, a text-to-3D generation framework by
incorporating unified diffusion priors. Our approach consists of three main
components: (1) a dual-phase training process to get albedo-normal aligned
multi-view diffusion and reconstruction models, (2) a progressive generation
procedure for geometry and albedo-textures based on Score Distillation Sample
(SDS) using the trained reconstruction and diffusion models, and (3) an
innovative application of SDS for finalizing PBR generation while keeping a
fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate
that UniDream surpasses existing methods in generating 3D objects with clearer
albedo textures, smoother surfaces, enhanced realism, and superior relighting
capabilities.