ChatPaper.aiChatPaper

Génération de texte vers 3D avec diffusion bidirectionnelle utilisant des a priori 2D et 3D

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

December 7, 2023
Auteurs: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue
cs.AI

Résumé

La majorité des recherches sur la génération 3D se concentrent sur la projection ascendante de modèles de base 2D dans l'espace 3D, soit en minimisant la perte de distillation de score 2D (SDS), soit en affinant les modèles sur des ensembles de données multi-vues. Sans a priori 3D explicites, ces méthodes entraînent souvent des anomalies géométriques et des incohérences multi-vues. Récemment, les chercheurs ont tenté d'améliorer l'authenticité des objets 3D en les entraînant directement sur des ensembles de données 3D, bien que cela se fasse au détriment de la qualité de la génération de textures, en raison de la diversité limitée des textures dans les ensembles de données 3D. Pour exploiter les avantages des deux approches, nous proposons Bidirectional Diffusion (BiDiff), un cadre unifié qui intègre à la fois un processus de diffusion 3D et 2D, afin de préserver respectivement la fidélité 3D et la richesse des textures 2D. De plus, comme une simple combinaison peut produire des résultats de génération incohérents, nous les relions avec un nouveau guidage bidirectionnel. Par ailleurs, notre méthode peut être utilisée comme initialisation de modèles basés sur l'optimisation pour améliorer davantage la qualité des modèles 3D et l'efficacité de l'optimisation, réduisant ainsi le processus de génération de 3,4 heures à 20 minutes. Les résultats expérimentaux montrent que notre modèle permet une génération 3D de haute qualité, diversifiée et évolutive. Site du projet : https://bidiff.github.io/.
English
Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.
PDF170December 15, 2024