ChatPaper.aiChatPaper

Muestreo de Destilación de Puntuación Semántica para Generación Texto-a-3D Compositiva

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

October 11, 2024
Autores: Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang
cs.AI

Resumen

La generación de activos 3D de alta calidad a partir de descripciones textuales sigue siendo un desafío fundamental en la investigación de gráficos por computadora y visión. Debido a la escasez de datos 3D, los enfoques de vanguardia utilizan precursores de difusión 2D pre-entrenados, optimizados a través de Muestreo de Destilación de Puntuación (SDS, por sus siglas en inglés). A pesar del progreso, crear escenas 3D complejas con múltiples objetos o interacciones intrincadas sigue siendo difícil. Para abordar esto, los métodos recientes han incorporado guías de caja o diseño. Sin embargo, estos métodos composicionales guiados por diseño a menudo tienen dificultades para proporcionar un control detallado, ya que suelen ser gruesos y carecen de expresividad. Para superar estos desafíos, presentamos un enfoque novedoso de SDS, Muestreo de Destilación de Puntuación Semántica (SemanticSDS), diseñado para mejorar de manera efectiva la expresividad y precisión de la generación de texto a 3D de composición. Nuestro enfoque integra nuevos incrustamientos semánticos que mantienen la consistencia en diferentes vistas de renderizado y diferencian claramente entre varios objetos y partes. Estos incrustamientos se transforman en un mapa semántico, que dirige un proceso de SDS específico de región, permitiendo una optimización precisa y generación composicional. Al aprovechar la orientación semántica explícita, nuestro método desbloquea las capacidades composicionales de los modelos de difusión pre-entrenados existentes, logrando así una calidad superior en la generación de contenido 3D, especialmente para objetos y escenas complejos. Los resultados experimentales demuestran que nuestro marco SemanticSDS es altamente efectivo para generar contenido 3D complejo de vanguardia. Código: https://github.com/YangLing0818/SemanticSDS-3D
English
Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

Summary

AI-Generated Summary

PDF142November 16, 2024