PlacidDreamer: Avanzando en la Armonía en la Generación de Texto a 3D
PlacidDreamer: Advancing Harmony in Text-to-3D Generation
July 19, 2024
Autores: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI
Resumen
Recientemente, la generación de texto a 3D ha atraído una atención significativa, lo que ha resultado en mejoras de rendimiento notables. Los métodos anteriores utilizan modelos de generación 3D de extremo a extremo para inicializar Gaussianas 3D, modelos de difusión multi-vista para garantizar consistencia multi-vista, y modelos de difusión de texto a imagen para refinar detalles con algoritmos de destilación de puntajes. Sin embargo, estos métodos presentan dos limitaciones. En primer lugar, se enfrentan a conflictos en las direcciones de generación ya que diferentes modelos tienen como objetivo producir activos 3D diversos. En segundo lugar, el problema de sobre-saturación en la destilación de puntajes no ha sido investigado a fondo ni resuelto. Para abordar estas limitaciones, proponemos PlacidDreamer, un marco de trabajo de texto a 3D que armoniza la inicialización, la generación multi-vista y la generación condicionada por texto con un único modelo de difusión multi-vista, al mismo tiempo que emplea un algoritmo de destilación de puntajes novedoso para lograr una saturación equilibrada. Para unificar la dirección de generación, introducimos el módulo del Plano Latente, una extensión de complemento fácil de entrenar que permite a los modelos de difusión multi-vista proporcionar una reconstrucción geométrica rápida para la inicialización y mejorar las imágenes multi-vista para personalizar el modelo de difusión de texto a imagen. Para abordar el problema de sobre-saturación, proponemos ver la destilación de puntajes como un problema de optimización multiobjetivo e introducimos el algoritmo de Destilación de Puntajes Equilibrado, que ofrece una solución Óptima de Pareto que logra tanto detalles ricos como una saturación equilibrada. Experimentos extensos validan las capacidades sobresalientes de nuestro PlacidDreamer. El código está disponible en https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention,
resulting in notable performance enhancements. Previous methods utilize
end-to-end 3D generation models to initialize 3D Gaussians, multi-view
diffusion models to enforce multi-view consistency, and text-to-image diffusion
models to refine details with score distillation algorithms. However, these
methods exhibit two limitations. Firstly, they encounter conflicts in
generation directions since different models aim to produce diverse 3D assets.
Secondly, the issue of over-saturation in score distillation has not been
thoroughly investigated and solved. To address these limitations, we propose
PlacidDreamer, a text-to-3D framework that harmonizes initialization,
multi-view generation, and text-conditioned generation with a single multi-view
diffusion model, while simultaneously employing a novel score distillation
algorithm to achieve balanced saturation. To unify the generation direction, we
introduce the Latent-Plane module, a training-friendly plug-in extension that
enables multi-view diffusion models to provide fast geometry reconstruction for
initialization and enhanced multi-view images to personalize the text-to-image
diffusion model. To address the over-saturation problem, we propose to view
score distillation as a multi-objective optimization problem and introduce the
Balanced Score Distillation algorithm, which offers a Pareto Optimal solution
that achieves both rich details and balanced saturation. Extensive experiments
validate the outstanding capabilities of our PlacidDreamer. The code is
available at https://github.com/HansenHuang0823/PlacidDreamer.