ChatPaper.aiChatPaper

UniDream: Vereinheitlichung von Diffusions-Priors für beleuchtungsfähige Text-zu-3D-Generierung

UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

December 14, 2023
Autoren: Zexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang
cs.AI

Zusammenfassung

Jüngste Fortschritte in der Text-zu-3D-Generierungstechnologie haben die Umwandlung von textuellen Beschreibungen in imaginative, geometrisch präzise und fein texturierte 3D-Objekte erheblich vorangetrieben. Trotz dieser Entwicklungen besteht eine weit verbreitete Einschränkung in der Verwendung von RGB-Daten in Diffusions- oder Rekonstruktionsmodellen, die oft zu Modellen mit inhärenten Beleuchtungs- und Schatteneffekten führen, die den Realismus beeinträchtigen und somit ihre Verwendbarkeit in Anwendungen, die präzise Neubeleuchtungsfähigkeiten erfordern, einschränken. Um diese Lücke zu schließen, präsentieren wir UniDream, ein Text-zu-3D-Generierungsframework, das vereinheitlichte Diffusions-Priors integriert. Unser Ansatz besteht aus drei Hauptkomponenten: (1) einem zweiphasigen Trainingsprozess zur Erstellung von Albedo-Normal-ausgerichteten Multi-View-Diffusions- und Rekonstruktionsmodellen, (2) einem progressiven Generierungsverfahren für Geometrie und Albedo-Texturen basierend auf Score Distillation Sampling (SDS) unter Verwendung der trainierten Rekonstruktions- und Diffusionsmodelle und (3) einer innovativen Anwendung von SDS zur Finalisierung der PBR-Generierung bei Beibehaltung einer festen Albedo basierend auf dem Stable Diffusion-Modell. Umfangreiche Evaluierungen zeigen, dass UniDream bestehende Methoden in der Generierung von 3D-Objekten mit klareren Albedo-Texturen, glatteren Oberflächen, verbessertem Realismus und überlegenen Neubeleuchtungsfähigkeiten übertrifft.
English
Recent advancements in text-to-3D generation technology have significantly advanced the conversion of textual descriptions into imaginative well-geometrical and finely textured 3D objects. Despite these developments, a prevalent limitation arises from the use of RGB data in diffusion or reconstruction models, which often results in models with inherent lighting and shadows effects that detract from their realism, thereby limiting their usability in applications that demand accurate relighting capabilities. To bridge this gap, we present UniDream, a text-to-3D generation framework by incorporating unified diffusion priors. Our approach consists of three main components: (1) a dual-phase training process to get albedo-normal aligned multi-view diffusion and reconstruction models, (2) a progressive generation procedure for geometry and albedo-textures based on Score Distillation Sample (SDS) using the trained reconstruction and diffusion models, and (3) an innovative application of SDS for finalizing PBR generation while keeping a fixed albedo based on Stable Diffusion model. Extensive evaluations demonstrate that UniDream surpasses existing methods in generating 3D objects with clearer albedo textures, smoother surfaces, enhanced realism, and superior relighting capabilities.
PDF111December 15, 2024