Семантическая дистилляция оценки для сэмплирования композиционного текста в 3D-генерацию.
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation
October 11, 2024
Авторы: Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang
cs.AI
Аннотация
Генерация высококачественных 3D-объектов по текстовым описаниям остается ключевой задачей в исследованиях по компьютерной графике и компьютерному зрению. Из-за недостатка 3D-данных современные подходы используют предварительно обученные 2D диффузионные априори, оптимизированные с помощью метода выборочного дистилляционного сэмплирования (SDS). Несмотря на прогресс, создание сложных 3D-сцен с несколькими объектами или сложными взаимодействиями остается сложной задачей. Для решения этой проблемы недавние методы включают направляющие рамки или макеты. Однако эти методы композиционного моделирования, основанные на макетах, часто испытывают трудности в обеспечении детального контроля, поскольку они обычно грубы и не выразительны. Для преодоления этих препятствий мы представляем новый подход SDS, названный Семантическое Дистилляционное Сэмплирование Оценок (SemanticSDS), разработанный для эффективного улучшения выразительности и точности композиционной генерации 3D по тексту. Наш подход интегрирует новые семантические вложения, которые обеспечивают согласованность между различными видами рендеринга и четкое различие между различными объектами и их частями. Эти вложения преобразуются в семантическую карту, которая направляет процесс SDS для конкретной области, обеспечивая точную оптимизацию и композиционную генерацию. Используя явное семантическое руководство, наш метод разблокирует композиционные возможности существующих предварительно обученных диффузионных моделей, тем самым достигая превосходного качества в генерации 3D-контента, особенно для сложных объектов и сцен. Экспериментальные результаты демонстрируют, что наша структура SemanticSDS эффективна для генерации современного сложного 3D-контента. Код: https://github.com/YangLing0818/SemanticSDS-3D
English
Generating high-quality 3D assets from textual descriptions remains a pivotal
challenge in computer graphics and vision research. Due to the scarcity of 3D
data, state-of-the-art approaches utilize pre-trained 2D diffusion priors,
optimized through Score Distillation Sampling (SDS). Despite progress, crafting
complex 3D scenes featuring multiple objects or intricate interactions is still
difficult. To tackle this, recent methods have incorporated box or layout
guidance. However, these layout-guided compositional methods often struggle to
provide fine-grained control, as they are generally coarse and lack
expressiveness. To overcome these challenges, we introduce a novel SDS
approach, Semantic Score Distillation Sampling (SemanticSDS), designed to
effectively improve the expressiveness and accuracy of compositional text-to-3D
generation. Our approach integrates new semantic embeddings that maintain
consistency across different rendering views and clearly differentiate between
various objects and parts. These embeddings are transformed into a semantic
map, which directs a region-specific SDS process, enabling precise optimization
and compositional generation. By leveraging explicit semantic guidance, our
method unlocks the compositional capabilities of existing pre-trained diffusion
models, thereby achieving superior quality in 3D content generation,
particularly for complex objects and scenes. Experimental results demonstrate
that our SemanticSDS framework is highly effective for generating
state-of-the-art complex 3D content. Code:
https://github.com/YangLing0818/SemanticSDS-3DSummary
AI-Generated Summary