ChatPaper.aiChatPaper

PlacidDreamer: Vooruitgang in Harmonie bij Tekst-naar-3D-generatie

PlacidDreamer: Advancing Harmony in Text-to-3D Generation

July 19, 2024
Auteurs: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI

Samenvatting

Onlangs heeft tekst-naar-3D-generatie aanzienlijke aandacht getrokken, wat heeft geleid tot opmerkelijke prestatieverbeteringen. Eerdere methoden maken gebruik van end-to-end 3D-generatiemodellen om 3D-Gaussians te initialiseren, multi-view diffusiemodellen om multi-view consistentie af te dwingen, en tekst-naar-beeld diffusiemodellen om details te verfijnen met score-distillatie-algoritmen. Deze methoden vertonen echter twee beperkingen. Ten eerste ontstaan er conflicten in de generatierichtingen, aangezien verschillende modellen diverse 3D-assets proberen te produceren. Ten tweede is het probleem van oververzadiging in score-distillatie nog niet grondig onderzocht en opgelost. Om deze beperkingen aan te pakken, stellen we PlacidDreamer voor, een tekst-naar-3D-framework dat initialisatie, multi-view-generatie en tekst-geconditioneerde generatie harmoniseert met een enkel multi-view diffusiemodel, terwijl tegelijkertijd een nieuw score-distillatie-algoritme wordt gebruikt om een gebalanceerde verzadiging te bereiken. Om de generatierichting te verenigen, introduceren we de Latent-Plane-module, een training-vriendelijke plug-in-uitbreiding die multi-view diffusiemodellen in staat stelt om snelle geometrie-reconstructie te bieden voor initialisatie en verbeterde multi-view-beelden om het tekst-naar-beeld diffusiemodel te personaliseren. Om het oververzadigingsprobleem aan te pakken, stellen we voor om score-distillatie te beschouwen als een multi-doeloptimalisatieprobleem en introduceren we het Balanced Score Distillation-algoritme, dat een Pareto-optimale oplossing biedt die zowel rijke details als gebalanceerde verzadiging bereikt. Uitgebreide experimenten valideren de uitstekende capaciteiten van onze PlacidDreamer. De code is beschikbaar op https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention, resulting in notable performance enhancements. Previous methods utilize end-to-end 3D generation models to initialize 3D Gaussians, multi-view diffusion models to enforce multi-view consistency, and text-to-image diffusion models to refine details with score distillation algorithms. However, these methods exhibit two limitations. Firstly, they encounter conflicts in generation directions since different models aim to produce diverse 3D assets. Secondly, the issue of over-saturation in score distillation has not been thoroughly investigated and solved. To address these limitations, we propose PlacidDreamer, a text-to-3D framework that harmonizes initialization, multi-view generation, and text-conditioned generation with a single multi-view diffusion model, while simultaneously employing a novel score distillation algorithm to achieve balanced saturation. To unify the generation direction, we introduce the Latent-Plane module, a training-friendly plug-in extension that enables multi-view diffusion models to provide fast geometry reconstruction for initialization and enhanced multi-view images to personalize the text-to-image diffusion model. To address the over-saturation problem, we propose to view score distillation as a multi-objective optimization problem and introduce the Balanced Score Distillation algorithm, which offers a Pareto Optimal solution that achieves both rich details and balanced saturation. Extensive experiments validate the outstanding capabilities of our PlacidDreamer. The code is available at https://github.com/HansenHuang0823/PlacidDreamer.
PDF52November 28, 2024