UniDream : Unification des priors de diffusion pour la génération de modèles 3D relightables à partir de texte
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
December 14, 2023
Auteurs: Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang
cs.AI
Résumé
Les récentes avancées dans la technologie de génération de texte-à-3D ont considérablement amélioré la conversion de descriptions textuelles en objets 3D imaginatifs, bien géométriquement structurés et finement texturés. Malgré ces progrès, une limitation prédominante découle de l'utilisation de données RVB dans les modèles de diffusion ou de reconstruction, ce qui entraîne souvent des modèles présentant des effets d'éclairage et d'ombres inhérents qui nuisent à leur réalisme, limitant ainsi leur utilité dans les applications exigeant des capacités de rééclairage précises. Pour combler cette lacune, nous présentons UniDream, un cadre de génération texte-à-3D intégrant des a priori de diffusion unifiés. Notre approche se compose de trois éléments principaux : (1) un processus d'entraînement en deux phases pour obtenir des modèles de diffusion et de reconstruction multi-vues alignés en albédo-normal, (2) une procédure de génération progressive pour la géométrie et les textures d'albédo basée sur l'échantillonnage par distillation de score (Score Distillation Sample, SDS) utilisant les modèles de reconstruction et de diffusion entraînés, et (3) une application innovante de SDS pour finaliser la génération PBR tout en maintenant un albédo fixe basé sur le modèle Stable Diffusion. Des évaluations approfondies démontrent qu'UniDream surpasse les méthodes existantes en générant des objets 3D avec des textures d'albédo plus nettes, des surfaces plus lisses, un réalisme accru et des capacités de rééclairage supérieures.
English
Recent advancements in text-to-3D generation technology have significantly
advanced the conversion of textual descriptions into imaginative
well-geometrical and finely textured 3D objects. Despite these developments, a
prevalent limitation arises from the use of RGB data in diffusion or
reconstruction models, which often results in models with inherent lighting and
shadows effects that detract from their realism, thereby limiting their
usability in applications that demand accurate relighting capabilities. To
bridge this gap, we present UniDream, a text-to-3D generation framework by
incorporating unified diffusion priors. Our approach consists of three main
components: (1) a dual-phase training process to get albedo-normal aligned
multi-view diffusion and reconstruction models, (2) a progressive generation
procedure for geometry and albedo-textures based on Score Distillation Sample
(SDS) using the trained reconstruction and diffusion models, and (3) an
innovative application of SDS for finalizing PBR generation while keeping a
fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate
that UniDream surpasses existing methods in generating 3D objects with clearer
albedo textures, smoother surfaces, enhanced realism, and superior relighting
capabilities.