PlacidDreamer: Avançando a Harmonia na Geração de Texto para 3D
PlacidDreamer: Advancing Harmony in Text-to-3D Generation
July 19, 2024
Autores: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI
Resumo
Recentemente, a geração de texto para 3D tem atraído significativa atenção, resultando em melhorias de desempenho notáveis. Métodos anteriores utilizam modelos de geração 3D de ponta a ponta para inicializar Gaussianas 3D, modelos de difusão multi-visão para impor consistência multi-visão, e modelos de difusão de texto para imagem para refinar detalhes com algoritmos de destilação de pontuação. No entanto, esses métodos apresentam duas limitações. Em primeiro lugar, eles encontram conflitos nas direções de geração, uma vez que diferentes modelos têm como objetivo produzir ativos 3D diversos. Em segundo lugar, a questão da super-saturação na destilação de pontuação não foi completamente investigada e resolvida. Para lidar com essas limitações, propomos o PlacidDreamer, um framework de texto para 3D que harmoniza inicialização, geração multi-visão e geração condicionada por texto com um único modelo de difusão multi-visão, ao mesmo tempo que emprega um novo algoritmo de destilação de pontuação para alcançar uma saturação equilibrada. Para unificar a direção de geração, introduzimos o módulo Plano Latente, uma extensão plug-in amigável ao treinamento que permite que os modelos de difusão multi-visão forneçam uma rápida reconstrução de geometria para inicialização e imagens multi-visão aprimoradas para personalizar o modelo de difusão de texto para imagem. Para abordar o problema de super-saturação, propomos visualizar a destilação de pontuação como um problema de otimização multiobjetivo e introduzir o algoritmo de Destilação de Pontuação Equilibrada, que oferece uma solução Ótima de Pareto que alcança tanto detalhes ricos quanto saturação equilibrada. Experimentos extensivos validam as capacidades excepcionais do nosso PlacidDreamer. O código está disponível em https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention,
resulting in notable performance enhancements. Previous methods utilize
end-to-end 3D generation models to initialize 3D Gaussians, multi-view
diffusion models to enforce multi-view consistency, and text-to-image diffusion
models to refine details with score distillation algorithms. However, these
methods exhibit two limitations. Firstly, they encounter conflicts in
generation directions since different models aim to produce diverse 3D assets.
Secondly, the issue of over-saturation in score distillation has not been
thoroughly investigated and solved. To address these limitations, we propose
PlacidDreamer, a text-to-3D framework that harmonizes initialization,
multi-view generation, and text-conditioned generation with a single multi-view
diffusion model, while simultaneously employing a novel score distillation
algorithm to achieve balanced saturation. To unify the generation direction, we
introduce the Latent-Plane module, a training-friendly plug-in extension that
enables multi-view diffusion models to provide fast geometry reconstruction for
initialization and enhanced multi-view images to personalize the text-to-image
diffusion model. To address the over-saturation problem, we propose to view
score distillation as a multi-objective optimization problem and introduce the
Balanced Score Distillation algorithm, which offers a Pareto Optimal solution
that achieves both rich details and balanced saturation. Extensive experiments
validate the outstanding capabilities of our PlacidDreamer. The code is
available at https://github.com/HansenHuang0823/PlacidDreamer.