Text-naar-3D-generatie met bidirectionele diffusie met behulp van zowel 2D- als 3D-priors
Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors
December 7, 2023
Auteurs: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue
cs.AI
Samenvatting
Het meeste onderzoek naar 3D-generatie richt zich op het omhoog projecteren van 2D-basismodellen naar de 3D-ruimte, hetzij door het minimaliseren van 2D Score Distillation Sampling (SDS)-verlies, hetzij door fine-tuning op multi-view datasets. Zonder expliciete 3D-priors leiden deze methoden vaak tot geometrische anomalieën en inconsistentie tussen meerdere views. Recentelijk hebben onderzoekers geprobeerd de echtheid van 3D-objecten te verbeteren door direct te trainen op 3D-datasets, zij het ten koste van lage kwaliteit in textuurgeneratie vanwege de beperkte textuurvariatie in 3D-datasets. Om de voordelen van beide benaderingen te benutten, stellen we Bidirectional Diffusion (BiDiff) voor, een uniform raamwerk dat zowel een 3D- als een 2D-diffusieproces omvat, om respectievelijk 3D-getrouwheid en 2D-textuurrijkdom te behouden. Bovendien, aangezien een eenvoudige combinatie inconsistente generatieresultaten kan opleveren, verbinden we deze verder met nieuwe bidirectionele begeleiding. Daarnaast kan onze methode worden gebruikt als initialisatie van op optimalisatie gebaseerde modellen om de kwaliteit van het 3D-model en de efficiëntie van de optimalisatie verder te verbeteren, waardoor het generatieproces wordt teruggebracht van 3,4 uur naar 20 minuten. Experimentele resultaten hebben aangetoond dat ons model hoogwaardige, diverse en schaalbare 3D-generatie bereikt. Projectwebsite: https://bidiff.github.io/.
English
Most 3D generation research focuses on up-projecting 2D foundation models
into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS)
loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these
methods often lead to geometric anomalies and multi-view inconsistency.
Recently, researchers have attempted to improve the genuineness of 3D objects
by directly training on 3D datasets, albeit at the cost of low-quality texture
generation due to the limited texture diversity in 3D datasets. To harness the
advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a
unified framework that incorporates both a 3D and a 2D diffusion process, to
preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a
simple combination may yield inconsistent generation results, we further bridge
them with novel bidirectional guidance. In addition, our method can be used as
an initialization of optimization-based models to further improve the quality
of 3D model and efficiency of optimization, reducing the generation process
from 3.4 hours to 20 minutes. Experimental results have shown that our model
achieves high-quality, diverse, and scalable 3D generation. Project website:
https://bidiff.github.io/.