PlacidDreamer: Promuovere l'armonia nella generazione da testo a 3D
PlacidDreamer: Advancing Harmony in Text-to-3D Generation
July 19, 2024
Autori: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI
Abstract
Recentemente, la generazione di testo in 3D ha attirato una significativa attenzione, portando a notevoli miglioramenti delle prestazioni. I metodi precedenti utilizzano modelli di generazione 3D end-to-end per inizializzare Gaussiane 3D, modelli di diffusione multi-vista per imporre la coerenza tra più viste e modelli di diffusione da testo a immagine per affinare i dettagli con algoritmi di distillazione del punteggio. Tuttavia, questi metodi presentano due limitazioni. In primo luogo, incontrano conflitti nelle direzioni di generazione poiché diversi modelli mirano a produrre risorse 3D diverse. In secondo luogo, il problema della sovrasaturazione nella distillazione del punteggio non è stato approfonditamente investigato e risolto. Per affrontare queste limitazioni, proponiamo PlacidDreamer, un framework da testo a 3D che armonizza l'inizializzazione, la generazione multi-vista e la generazione condizionata dal testo con un singolo modello di diffusione multi-vista, impiegando contemporaneamente un nuovo algoritmo di distillazione del punteggio per ottenere una saturazione bilanciata. Per unificare la direzione di generazione, introduciamo il modulo Latent-Plane, un'estensione plug-in adatta all'addestramento che consente ai modelli di diffusione multi-vista di fornire una ricostruzione geometrica rapida per l'inizializzazione e immagini multi-vista migliorate per personalizzare il modello di diffusione da testo a immagine. Per affrontare il problema della sovrasaturazione, proponiamo di considerare la distillazione del punteggio come un problema di ottimizzazione multi-obiettivo e introduciamo l'algoritmo Balanced Score Distillation, che offre una soluzione Pareto Ottimale che raggiunge sia dettagli ricchi che una saturazione bilanciata. Esperimenti estensivi convalidano le eccezionali capacità del nostro PlacidDreamer. Il codice è disponibile all'indirizzo https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention,
resulting in notable performance enhancements. Previous methods utilize
end-to-end 3D generation models to initialize 3D Gaussians, multi-view
diffusion models to enforce multi-view consistency, and text-to-image diffusion
models to refine details with score distillation algorithms. However, these
methods exhibit two limitations. Firstly, they encounter conflicts in
generation directions since different models aim to produce diverse 3D assets.
Secondly, the issue of over-saturation in score distillation has not been
thoroughly investigated and solved. To address these limitations, we propose
PlacidDreamer, a text-to-3D framework that harmonizes initialization,
multi-view generation, and text-conditioned generation with a single multi-view
diffusion model, while simultaneously employing a novel score distillation
algorithm to achieve balanced saturation. To unify the generation direction, we
introduce the Latent-Plane module, a training-friendly plug-in extension that
enables multi-view diffusion models to provide fast geometry reconstruction for
initialization and enhanced multi-view images to personalize the text-to-image
diffusion model. To address the over-saturation problem, we propose to view
score distillation as a multi-objective optimization problem and introduce the
Balanced Score Distillation algorithm, which offers a Pareto Optimal solution
that achieves both rich details and balanced saturation. Extensive experiments
validate the outstanding capabilities of our PlacidDreamer. The code is
available at https://github.com/HansenHuang0823/PlacidDreamer.