Generación de Texto a 3D con Difusión Bidireccional utilizando Priors tanto en 2D como en 3D

Resumen

La mayoría de las investigaciones sobre generación 3D se centran en proyectar modelos fundamentales 2D al espacio 3D, ya sea minimizando la pérdida de Muestreo de Distilación de Puntaje 2D (SDS) o ajustando finamente en conjuntos de datos multivista. Sin priores 3D explícitos, estos métodos suelen generar anomalías geométricas e inconsistencias multivista. Recientemente, los investigadores han intentado mejorar la autenticidad de los objetos 3D entrenando directamente en conjuntos de datos 3D, aunque a costa de una generación de texturas de baja calidad debido a la diversidad limitada de texturas en estos conjuntos. Para aprovechar las ventajas de ambos enfoques, proponemos Difusión Bidireccional (BiDiff), un marco unificado que incorpora tanto un proceso de difusión 3D como uno 2D, preservando respectivamente la fidelidad 3D y la riqueza de texturas 2D. Además, dado que una combinación simple podría generar resultados inconsistentes, los conectamos mediante una guía bidireccional novedosa. Adicionalmente, nuestro método puede usarse como inicialización para modelos basados en optimización, mejorando aún más la calidad del modelo 3D y la eficiencia de la optimización, reduciendo el proceso de generación de 3.4 horas a 20 minutos. Los resultados experimentales muestran que nuestro modelo logra una generación 3D de alta calidad, diversa y escalable. Sitio del proyecto: https://bidiff.github.io/.

English

Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.

Generación de Texto a 3D con Difusión Bidireccional utilizando Priors tanto en 2D como en 3D

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

Resumen

Support