Semantische Score-Destillation-Abtastung für die kompositionelle Text-zu-3D-Generierung
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation
October 11, 2024
Autoren: Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang
cs.AI
Zusammenfassung
Die Generierung hochwertiger 3D-Assets aus textuellen Beschreibungen bleibt eine zentrale Herausforderung in der Computergrafik- und Bildverarbeitungsforschung. Aufgrund der Knappheit von 3D-Daten nutzen modernste Ansätze vortrainierte 2D-Diffusionsprioritäten, die durch Score Distillation Sampling (SDS) optimiert werden. Trotz Fortschritten ist es nach wie vor schwierig, komplexe 3D-Szenen mit mehreren Objekten oder komplexen Interaktionen zu erstellen. Um dies zu bewältigen, haben aktuelle Methoden Box- oder Layout-Anleitungen integriert. Allerdings haben diese layoutgesteuerten kompositorischen Methoden oft Schwierigkeiten, feinkörnige Kontrolle zu bieten, da sie im Allgemeinen grob sind und an Ausdruckskraft fehlen. Um diese Herausforderungen zu überwinden, stellen wir einen neuartigen SDS-Ansatz vor, Semantic Score Distillation Sampling (SemanticSDS), der darauf abzielt, die Ausdruckskraft und Genauigkeit der kompositorischen Text-zu-3D-Generierung effektiv zu verbessern. Unser Ansatz integriert neue semantische Einbettungen, die Konsistenz über verschiedene Renderingansichten hinweg aufrechterhalten und klar zwischen verschiedenen Objekten und Teilen unterscheiden. Diese Einbettungen werden in eine semantische Karte transformiert, die einen regionspezifischen SDS-Prozess lenkt, der präzise Optimierung und kompositorische Generierung ermöglicht. Durch die Nutzung expliziter semantischer Anleitungen entsperrt unsere Methode die kompositorischen Fähigkeiten bestehender vortrainierter Diffusionsmodelle und erreicht somit eine überlegene Qualität bei der 3D-Inhalts-generierung, insbesondere für komplexe Objekte und Szenen. Experimentelle Ergebnisse zeigen, dass unser SemanticSDS-Framework äußerst effektiv ist, um hochwertigen komplexen 3D-Inhalt zu generieren. Code: https://github.com/YangLing0818/SemanticSDS-3D
English
Generating high-quality 3D assets from textual descriptions remains a pivotal
challenge in computer graphics and vision research. Due to the scarcity of 3D
data, state-of-the-art approaches utilize pre-trained 2D diffusion priors,
optimized through Score Distillation Sampling (SDS). Despite progress, crafting
complex 3D scenes featuring multiple objects or intricate interactions is still
difficult. To tackle this, recent methods have incorporated box or layout
guidance. However, these layout-guided compositional methods often struggle to
provide fine-grained control, as they are generally coarse and lack
expressiveness. To overcome these challenges, we introduce a novel SDS
approach, Semantic Score Distillation Sampling (SemanticSDS), designed to
effectively improve the expressiveness and accuracy of compositional text-to-3D
generation. Our approach integrates new semantic embeddings that maintain
consistency across different rendering views and clearly differentiate between
various objects and parts. These embeddings are transformed into a semantic
map, which directs a region-specific SDS process, enabling precise optimization
and compositional generation. By leveraging explicit semantic guidance, our
method unlocks the compositional capabilities of existing pre-trained diffusion
models, thereby achieving superior quality in 3D content generation,
particularly for complex objects and scenes. Experimental results demonstrate
that our SemanticSDS framework is highly effective for generating
state-of-the-art complex 3D content. Code:
https://github.com/YangLing0818/SemanticSDS-3DSummary
AI-Generated Summary