Generazione da Testo a 3D con Diffusione Bidirezionale utilizzando Prior sia 2D che 3D

Abstract

La maggior parte della ricerca sulla generazione 3D si concentra sull'up-proiezione di modelli di base 2D nello spazio 3D, sia minimizzando la perdita di Score Distillation Sampling (SDS) 2D sia ottimizzando su dataset multi-vista. Senza prior espliciti 3D, questi metodi spesso portano ad anomalie geometriche e incoerenze multi-vista. Recentemente, i ricercatori hanno tentato di migliorare l'autenticità degli oggetti 3D addestrando direttamente su dataset 3D, sebbene a costo di una generazione di texture di bassa qualità a causa della limitata diversità delle texture nei dataset 3D. Per sfruttare i vantaggi di entrambi gli approcci, proponiamo Bidirectional Diffusion (BiDiff), un framework unificato che incorpora sia un processo di diffusione 3D che uno 2D, per preservare rispettivamente la fedeltà 3D e la ricchezza delle texture 2D. Inoltre, poiché una semplice combinazione potrebbe produrre risultati di generazione incoerenti, li colleghiamo ulteriormente con una nuova guida bidirezionale. In aggiunta, il nostro metodo può essere utilizzato come inizializzazione di modelli basati sull'ottimizzazione per migliorare ulteriormente la qualità del modello 3D e l'efficienza dell'ottimizzazione, riducendo il processo di generazione da 3,4 ore a 20 minuti. I risultati sperimentali hanno dimostrato che il nostro modello raggiunge una generazione 3D di alta qualità, diversificata e scalabile. Sito del progetto: https://bidiff.github.io/.

English

Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.

Generazione da Testo a 3D con Diffusione Bidirezionale utilizzando Prior sia 2D che 3D

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Abstract

Support