Text-naar-3D-generatie met bidirectionele diffusie met behulp van zowel 2D- als 3D-priors

Samenvatting

Het meeste onderzoek naar 3D-generatie richt zich op het omhoog projecteren van 2D-basismodellen naar de 3D-ruimte, hetzij door het minimaliseren van 2D Score Distillation Sampling (SDS)-verlies, hetzij door fine-tuning op multi-view datasets. Zonder expliciete 3D-priors leiden deze methoden vaak tot geometrische anomalieën en inconsistentie tussen meerdere views. Recentelijk hebben onderzoekers geprobeerd de echtheid van 3D-objecten te verbeteren door direct te trainen op 3D-datasets, zij het ten koste van lage kwaliteit in textuurgeneratie vanwege de beperkte textuurvariatie in 3D-datasets. Om de voordelen van beide benaderingen te benutten, stellen we Bidirectional Diffusion (BiDiff) voor, een uniform raamwerk dat zowel een 3D- als een 2D-diffusieproces omvat, om respectievelijk 3D-getrouwheid en 2D-textuurrijkdom te behouden. Bovendien, aangezien een eenvoudige combinatie inconsistente generatieresultaten kan opleveren, verbinden we deze verder met nieuwe bidirectionele begeleiding. Daarnaast kan onze methode worden gebruikt als initialisatie van op optimalisatie gebaseerde modellen om de kwaliteit van het 3D-model en de efficiëntie van de optimalisatie verder te verbeteren, waardoor het generatieproces wordt teruggebracht van 3,4 uur naar 20 minuten. Experimentele resultaten hebben aangetoond dat ons model hoogwaardige, diverse en schaalbare 3D-generatie bereikt. Projectwebsite: https://bidiff.github.io/.

English

Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.

Text-naar-3D-generatie met bidirectionele diffusie met behulp van zowel 2D- als 3D-priors

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Samenvatting

Support