ChatPaper.aiChatPaper

PlacidDreamer : Vers une harmonie accrue dans la génération de texte vers la 3D

PlacidDreamer: Advancing Harmony in Text-to-3D Generation

July 19, 2024
Auteurs: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI

Résumé

Récemment, la génération de texte-à-3D a suscité une attention considérable, conduisant à des améliorations notables des performances. Les méthodes précédentes utilisent des modèles de génération 3D de bout en bout pour initialiser des Gaussiennes 3D, des modèles de diffusion multi-vues pour renforcer la cohérence multi-vues, et des modèles de diffusion texte-à-image pour affiner les détails avec des algorithmes de distillation de score. Cependant, ces méthodes présentent deux limitations. Premièrement, elles rencontrent des conflits dans les directions de génération, car différents modèles visent à produire des actifs 3D variés. Deuxièmement, le problème de sursaturation dans la distillation de score n'a pas été approfondi et résolu. Pour pallier ces limitations, nous proposons PlacidDreamer, un framework texte-à-3D qui harmonise l'initialisation, la génération multi-vues et la génération conditionnée par le texte avec un seul modèle de diffusion multi-vues, tout en employant simultanément un nouvel algorithme de distillation de score pour atteindre une saturation équilibrée. Pour unifier la direction de génération, nous introduisons le module Latent-Plane, une extension plug-in adaptée à l'entraînement qui permet aux modèles de diffusion multi-vues de fournir une reconstruction géométrique rapide pour l'initialisation et des images multi-vues améliorées pour personnaliser le modèle de diffusion texte-à-image. Pour résoudre le problème de sursaturation, nous proposons de considérer la distillation de score comme un problème d'optimisation multi-objectif et introduisons l'algorithme de Distillation de Score Équilibrée, qui offre une solution Pareto Optimale permettant d'obtenir à la fois des détails riches et une saturation équilibrée. Des expériences approfondies valident les capacités exceptionnelles de notre PlacidDreamer. Le code est disponible à l'adresse https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention, resulting in notable performance enhancements. Previous methods utilize end-to-end 3D generation models to initialize 3D Gaussians, multi-view diffusion models to enforce multi-view consistency, and text-to-image diffusion models to refine details with score distillation algorithms. However, these methods exhibit two limitations. Firstly, they encounter conflicts in generation directions since different models aim to produce diverse 3D assets. Secondly, the issue of over-saturation in score distillation has not been thoroughly investigated and solved. To address these limitations, we propose PlacidDreamer, a text-to-3D framework that harmonizes initialization, multi-view generation, and text-conditioned generation with a single multi-view diffusion model, while simultaneously employing a novel score distillation algorithm to achieve balanced saturation. To unify the generation direction, we introduce the Latent-Plane module, a training-friendly plug-in extension that enables multi-view diffusion models to provide fast geometry reconstruction for initialization and enhanced multi-view images to personalize the text-to-image diffusion model. To address the over-saturation problem, we propose to view score distillation as a multi-objective optimization problem and introduce the Balanced Score Distillation algorithm, which offers a Pareto Optimal solution that achieves both rich details and balanced saturation. Extensive experiments validate the outstanding capabilities of our PlacidDreamer. The code is available at https://github.com/HansenHuang0823/PlacidDreamer.

Summary

AI-Generated Summary

PDF52November 28, 2024