Amostragem de Destilação de Pontuação Semântica para Geração Texto-para-3D Composicional

Resumo

A geração de ativos 3D de alta qualidade a partir de descrições textuais continua a ser um desafio fundamental na pesquisa de gráficos computacionais e visão. Devido à escassez de dados 3D, abordagens de ponta utilizam priores de difusão 2D pré-treinados, otimizados por meio de Amostragem de Difusão de Pontuação (SDS). Apesar do progresso, criar cenas 3D complexas com vários objetos ou interações intricadas ainda é difícil. Para lidar com isso, métodos recentes têm incorporado orientações de caixa ou layout. No entanto, esses métodos composicionais orientados por layout frequentemente têm dificuldade em fornecer controle detalhado, pois geralmente são grosseiros e carentes de expressividade. Para superar esses desafios, apresentamos uma nova abordagem SDS, Amostragem de Difusão de Pontuação Semântica (SemanticSDS), projetada para melhorar efetivamente a expressividade e precisão da geração de texto para 3D. Nossa abordagem integra novas incorporações semânticas que mantêm consistência em diferentes visualizações de renderização e diferenciam claramente entre vários objetos e partes. Essas incorporações são transformadas em um mapa semântico, que direciona um processo de SDS específico da região, permitindo otimização precisa e geração composicional. Ao alavancar orientações semânticas explícitas, nosso método desbloqueia as capacidades composicionais de modelos de difusão pré-treinados existentes, alcançando assim uma qualidade superior na geração de conteúdo 3D, especialmente para objetos e cenas complexas. Resultados experimentais demonstram que nosso framework SemanticSDS é altamente eficaz para gerar conteúdo 3D complexo de última geração. Código: https://github.com/YangLing0818/SemanticSDS-3D

English

Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

Amostragem de Destilação de Pontuação Semântica para Geração Texto-para-3D Composicional

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Resumo

Support