PlacidDreamer : Vers une harmonie accrue dans la génération de texte vers la 3D
PlacidDreamer: Advancing Harmony in Text-to-3D Generation
July 19, 2024
Auteurs: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI
Résumé
Récemment, la génération de texte-à-3D a suscité une attention considérable, conduisant à des améliorations notables des performances. Les méthodes précédentes utilisent des modèles de génération 3D de bout en bout pour initialiser des Gaussiennes 3D, des modèles de diffusion multi-vues pour renforcer la cohérence multi-vues, et des modèles de diffusion texte-à-image pour affiner les détails avec des algorithmes de distillation de score. Cependant, ces méthodes présentent deux limitations. Premièrement, elles rencontrent des conflits dans les directions de génération, car différents modèles visent à produire des actifs 3D variés. Deuxièmement, le problème de sursaturation dans la distillation de score n'a pas été approfondi et résolu. Pour pallier ces limitations, nous proposons PlacidDreamer, un framework texte-à-3D qui harmonise l'initialisation, la génération multi-vues et la génération conditionnée par le texte avec un seul modèle de diffusion multi-vues, tout en employant simultanément un nouvel algorithme de distillation de score pour atteindre une saturation équilibrée. Pour unifier la direction de génération, nous introduisons le module Latent-Plane, une extension plug-in adaptée à l'entraînement qui permet aux modèles de diffusion multi-vues de fournir une reconstruction géométrique rapide pour l'initialisation et des images multi-vues améliorées pour personnaliser le modèle de diffusion texte-à-image. Pour résoudre le problème de sursaturation, nous proposons de considérer la distillation de score comme un problème d'optimisation multi-objectif et introduisons l'algorithme de Distillation de Score Équilibrée, qui offre une solution Pareto Optimale permettant d'obtenir à la fois des détails riches et une saturation équilibrée. Des expériences approfondies valident les capacités exceptionnelles de notre PlacidDreamer. Le code est disponible à l'adresse https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention,
resulting in notable performance enhancements. Previous methods utilize
end-to-end 3D generation models to initialize 3D Gaussians, multi-view
diffusion models to enforce multi-view consistency, and text-to-image diffusion
models to refine details with score distillation algorithms. However, these
methods exhibit two limitations. Firstly, they encounter conflicts in
generation directions since different models aim to produce diverse 3D assets.
Secondly, the issue of over-saturation in score distillation has not been
thoroughly investigated and solved. To address these limitations, we propose
PlacidDreamer, a text-to-3D framework that harmonizes initialization,
multi-view generation, and text-conditioned generation with a single multi-view
diffusion model, while simultaneously employing a novel score distillation
algorithm to achieve balanced saturation. To unify the generation direction, we
introduce the Latent-Plane module, a training-friendly plug-in extension that
enables multi-view diffusion models to provide fast geometry reconstruction for
initialization and enhanced multi-view images to personalize the text-to-image
diffusion model. To address the over-saturation problem, we propose to view
score distillation as a multi-objective optimization problem and introduce the
Balanced Score Distillation algorithm, which offers a Pareto Optimal solution
that achieves both rich details and balanced saturation. Extensive experiments
validate the outstanding capabilities of our PlacidDreamer. The code is
available at https://github.com/HansenHuang0823/PlacidDreamer.Summary
AI-Generated Summary