Échantillonnage de distillation de score sémantique pour la génération textuelle compositionnelle en 3D
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation
October 11, 2024
Auteurs: Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang
cs.AI
Résumé
La génération d'actifs 3D de haute qualité à partir de descriptions textuelles demeure un défi crucial dans la recherche en infographie et vision par ordinateur. En raison de la rareté des données 3D, les approches de pointe utilisent des préalables de diffusion 2D pré-entraînés, optimisés par l'échantillonnage de distillation de score (SDS). Malgré les progrès réalisés, la création de scènes 3D complexes comportant plusieurs objets ou interactions complexes reste difficile. Pour relever ce défi, les méthodes récentes ont incorporé des indications de boîte ou de disposition. Cependant, ces méthodes compositionnelles guidées par la disposition ont souvent du mal à fournir un contrôle détaillé, car elles sont généralement grossières et manquent d'expressivité. Pour surmonter ces défis, nous introduisons une nouvelle approche SDS, l'échantillonnage de distillation de score sémantique (SemanticSDS), conçue pour améliorer efficacement l'expressivité et la précision de la génération textuelle vers 3D. Notre approche intègre de nouveaux plongements sémantiques qui maintiennent la cohérence à travers différentes vues de rendu et différencient clairement entre différents objets et parties. Ces plongements sont transformés en une carte sémantique, qui guide un processus SDS spécifique à la région, permettant une optimisation précise et une génération compositionnelle. En exploitant un guidage sémantique explicite, notre méthode libère les capacités compositionnelles des modèles de diffusion pré-entraînés existants, atteignant ainsi une qualité supérieure dans la génération de contenu 3D, notamment pour des objets et scènes complexes. Les résultats expérimentaux démontrent que notre cadre SemanticSDS est très efficace pour générer du contenu 3D complexe de pointe. Code : https://github.com/YangLing0818/SemanticSDS-3D
English
Generating high-quality 3D assets from textual descriptions remains a pivotal
challenge in computer graphics and vision research. Due to the scarcity of 3D
data, state-of-the-art approaches utilize pre-trained 2D diffusion priors,
optimized through Score Distillation Sampling (SDS). Despite progress, crafting
complex 3D scenes featuring multiple objects or intricate interactions is still
difficult. To tackle this, recent methods have incorporated box or layout
guidance. However, these layout-guided compositional methods often struggle to
provide fine-grained control, as they are generally coarse and lack
expressiveness. To overcome these challenges, we introduce a novel SDS
approach, Semantic Score Distillation Sampling (SemanticSDS), designed to
effectively improve the expressiveness and accuracy of compositional text-to-3D
generation. Our approach integrates new semantic embeddings that maintain
consistency across different rendering views and clearly differentiate between
various objects and parts. These embeddings are transformed into a semantic
map, which directs a region-specific SDS process, enabling precise optimization
and compositional generation. By leveraging explicit semantic guidance, our
method unlocks the compositional capabilities of existing pre-trained diffusion
models, thereby achieving superior quality in 3D content generation,
particularly for complex objects and scenes. Experimental results demonstrate
that our SemanticSDS framework is highly effective for generating
state-of-the-art complex 3D content. Code:
https://github.com/YangLing0818/SemanticSDS-3DSummary
AI-Generated Summary