ChatPaper.aiChatPaper

Geração de Texto para 3D com Difusão Bidirecional utilizando Priors 2D e 3D

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

December 7, 2023
Autores: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue
cs.AI

Resumo

A maior parte da pesquisa em geração 3D concentra-se em projetar modelos fundamentais 2D no espaço 3D, seja minimizando a perda de Amostragem de Distilação de Pontuação 2D (SDS) ou ajustando finamente em conjuntos de dados multivista. Sem priors 3D explícitos, esses métodos frequentemente resultam em anomalias geométricas e inconsistências multivista. Recentemente, pesquisadores tentaram melhorar a autenticidade de objetos 3D treinando diretamente em conjuntos de dados 3D, embora ao custo de geração de texturas de baixa qualidade devido à diversidade limitada de texturas nesses conjuntos. Para aproveitar as vantagens de ambas as abordagens, propomos o Bidirectional Diffusion (BiDiff), um framework unificado que incorpora tanto um processo de difusão 3D quanto 2D, preservando, respectivamente, a fidelidade 3D e a riqueza de texturas 2D. Além disso, como uma combinação simples pode gerar resultados inconsistentes, nós os conectamos com uma nova orientação bidirecional. Adicionalmente, nosso método pode ser usado como uma inicialização para modelos baseados em otimização, melhorando ainda mais a qualidade do modelo 3D e a eficiência da otimização, reduzindo o processo de geração de 3,4 horas para 20 minutos. Resultados experimentais mostraram que nosso modelo alcança geração 3D de alta qualidade, diversa e escalável. Site do projeto: https://bidiff.github.io/.
English
Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.
PDF170December 15, 2024