PlacidDreamer: Fortschritte bei der Harmonisierung in der Text-zu-3D-Generierung
PlacidDreamer: Advancing Harmony in Text-to-3D Generation
July 19, 2024
Autoren: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI
Zusammenfassung
In letzter Zeit hat die Text-zu-3D-Generierung erhebliche Aufmerksamkeit erregt und zu bemerkenswerten Leistungsverbesserungen geführt. Frühere Methoden nutzen End-to-End-3D-Generierungsmodelle zur Initialisierung von 3D-Gaußschen, Multi-View-Diffusionsmodelle zur Durchsetzung von Multi-View-Konsistenz und Text-zu-Bild-Diffusionsmodelle zur Verfeinerung von Details mit Score-Destillationsalgorithmen. Diese Methoden weisen jedoch zwei Einschränkungen auf. Erstens treten Konflikte in den Generierungsrichtungen auf, da verschiedene Modelle darauf abzielen, vielfältige 3D-Ressourcen zu erzeugen. Zweitens wurde das Problem der Über-Sättigung in der Score-Destillation nicht gründlich untersucht und gelöst. Um diese Einschränkungen anzugehen, schlagen wir PlacidDreamer vor, ein Text-zu-3D-Framework, das Initialisierung, Multi-View-Generierung und textkonditionierte Generierung mit einem einzigen Multi-View-Diffusionsmodell harmonisiert und gleichzeitig einen neuartigen Score-Destillationsalgorithmus einsetzt, um eine ausgewogene Sättigung zu erreichen. Um die Generierungsrichtung zu vereinheitlichen, führen wir das Latent-Plane-Modul ein, eine benutzerfreundliche Plug-in-Erweiterung, die es Multi-View-Diffusionsmodellen ermöglicht, eine schnelle Geometrierekonstruktion für die Initialisierung bereitzustellen und verbesserte Multi-View-Bilder zur Personalisierung des Text-zu-Bild-Diffusionsmodells zu liefern. Um das Problem der Über-Sättigung anzugehen, schlagen wir vor, die Score-Destillation als ein Multi-Objektiv-Optimierungsproblem zu betrachten und den Balanced Score Destillation-Algorithmus einzuführen, der eine Pareto-optimale Lösung bietet, die sowohl reichhaltige Details als auch ausgewogene Sättigung erreicht. Umfangreiche Experimente bestätigen die herausragenden Fähigkeiten unseres PlacidDreamer. Der Code ist verfügbar unter https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention,
resulting in notable performance enhancements. Previous methods utilize
end-to-end 3D generation models to initialize 3D Gaussians, multi-view
diffusion models to enforce multi-view consistency, and text-to-image diffusion
models to refine details with score distillation algorithms. However, these
methods exhibit two limitations. Firstly, they encounter conflicts in
generation directions since different models aim to produce diverse 3D assets.
Secondly, the issue of over-saturation in score distillation has not been
thoroughly investigated and solved. To address these limitations, we propose
PlacidDreamer, a text-to-3D framework that harmonizes initialization,
multi-view generation, and text-conditioned generation with a single multi-view
diffusion model, while simultaneously employing a novel score distillation
algorithm to achieve balanced saturation. To unify the generation direction, we
introduce the Latent-Plane module, a training-friendly plug-in extension that
enables multi-view diffusion models to provide fast geometry reconstruction for
initialization and enhanced multi-view images to personalize the text-to-image
diffusion model. To address the over-saturation problem, we propose to view
score distillation as a multi-objective optimization problem and introduce the
Balanced Score Distillation algorithm, which offers a Pareto Optimal solution
that achieves both rich details and balanced saturation. Extensive experiments
validate the outstanding capabilities of our PlacidDreamer. The code is
available at https://github.com/HansenHuang0823/PlacidDreamer.Summary
AI-Generated Summary