ChatPaper.aiChatPaper

PlacidDreamer: Fortschritte bei der Harmonisierung in der Text-zu-3D-Generierung

PlacidDreamer: Advancing Harmony in Text-to-3D Generation

July 19, 2024
Autoren: Shuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia
cs.AI

Zusammenfassung

In letzter Zeit hat die Text-zu-3D-Generierung erhebliche Aufmerksamkeit erregt und zu bemerkenswerten Leistungsverbesserungen geführt. Frühere Methoden nutzen End-to-End-3D-Generierungsmodelle zur Initialisierung von 3D-Gaußschen, Multi-View-Diffusionsmodelle zur Durchsetzung von Multi-View-Konsistenz und Text-zu-Bild-Diffusionsmodelle zur Verfeinerung von Details mit Score-Destillationsalgorithmen. Diese Methoden weisen jedoch zwei Einschränkungen auf. Erstens treten Konflikte in den Generierungsrichtungen auf, da verschiedene Modelle darauf abzielen, vielfältige 3D-Ressourcen zu erzeugen. Zweitens wurde das Problem der Über-Sättigung in der Score-Destillation nicht gründlich untersucht und gelöst. Um diese Einschränkungen anzugehen, schlagen wir PlacidDreamer vor, ein Text-zu-3D-Framework, das Initialisierung, Multi-View-Generierung und textkonditionierte Generierung mit einem einzigen Multi-View-Diffusionsmodell harmonisiert und gleichzeitig einen neuartigen Score-Destillationsalgorithmus einsetzt, um eine ausgewogene Sättigung zu erreichen. Um die Generierungsrichtung zu vereinheitlichen, führen wir das Latent-Plane-Modul ein, eine benutzerfreundliche Plug-in-Erweiterung, die es Multi-View-Diffusionsmodellen ermöglicht, eine schnelle Geometrierekonstruktion für die Initialisierung bereitzustellen und verbesserte Multi-View-Bilder zur Personalisierung des Text-zu-Bild-Diffusionsmodells zu liefern. Um das Problem der Über-Sättigung anzugehen, schlagen wir vor, die Score-Destillation als ein Multi-Objektiv-Optimierungsproblem zu betrachten und den Balanced Score Destillation-Algorithmus einzuführen, der eine Pareto-optimale Lösung bietet, die sowohl reichhaltige Details als auch ausgewogene Sättigung erreicht. Umfangreiche Experimente bestätigen die herausragenden Fähigkeiten unseres PlacidDreamer. Der Code ist verfügbar unter https://github.com/HansenHuang0823/PlacidDreamer.
English
Recently, text-to-3D generation has attracted significant attention, resulting in notable performance enhancements. Previous methods utilize end-to-end 3D generation models to initialize 3D Gaussians, multi-view diffusion models to enforce multi-view consistency, and text-to-image diffusion models to refine details with score distillation algorithms. However, these methods exhibit two limitations. Firstly, they encounter conflicts in generation directions since different models aim to produce diverse 3D assets. Secondly, the issue of over-saturation in score distillation has not been thoroughly investigated and solved. To address these limitations, we propose PlacidDreamer, a text-to-3D framework that harmonizes initialization, multi-view generation, and text-conditioned generation with a single multi-view diffusion model, while simultaneously employing a novel score distillation algorithm to achieve balanced saturation. To unify the generation direction, we introduce the Latent-Plane module, a training-friendly plug-in extension that enables multi-view diffusion models to provide fast geometry reconstruction for initialization and enhanced multi-view images to personalize the text-to-image diffusion model. To address the over-saturation problem, we propose to view score distillation as a multi-objective optimization problem and introduce the Balanced Score Distillation algorithm, which offers a Pareto Optimal solution that achieves both rich details and balanced saturation. Extensive experiments validate the outstanding capabilities of our PlacidDreamer. The code is available at https://github.com/HansenHuang0823/PlacidDreamer.

Summary

AI-Generated Summary

PDF52November 28, 2024