ChatPaper.aiChatPaper

의미 점수 증류 샘플링을 통한 구성적 텍스트-3D 생성

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

October 11, 2024
저자: Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang
cs.AI

초록

텍스트 설명으로부터 고품질 3D 에셋을 생성하는 것은 컴퓨터 그래픽스 및 비전 연구에서 중요한 과제로 남아 있습니다. 3D 데이터의 부족으로 최신 접근 방식은 사전 훈련된 2D 확산 사전을 활용하며, 이는 Score Distillation Sampling (SDS)을 통해 최적화됩니다. 발전에도 불구하고, 여러 객체나 복잡한 상호 작용을 갖는 복잡한 3D 장면을 만드는 것은 여전히 어렵습니다. 이를 해결하기 위해 최근의 방법은 상자나 레이아웃 가이드를 통합했습니다. 그러나 이러한 레이아웃 가이드 구성 방법은 일반적으로 거칠고 표현력이 부족하기 때문에 세밀한 제어를 제공하는 데 어려움을 겪습니다. 이러한 도전 과제를 극복하기 위해 우리는 새로운 의미론적 임베딩을 통합한 새로운 SDS 접근 방식인 Semantic Score Distillation Sampling (SemanticSDS)을 소개합니다. 이 접근 방식은 서로 다른 렌더링 뷰 간 일관성을 유지하고 다양한 객체 및 부분을 명확히 구분하는 새로운 의미론적 임베딩을 통합합니다. 이러한 임베딩은 의미론적 맵으로 변환되어 영역별 SDS 프로세스를 안내함으로써 정확한 최적화와 구성 생성을 가능하게 합니다. 명시적 의미론적 가이드를 활용함으로써 우리의 방법은 기존 사전 훈련된 확산 모델의 구성 능력을 발휘하여, 특히 복잡한 객체와 장면에 대해 우수한 품질의 3D 콘텐츠 생성을 달성합니다. 실험 결과는 우리의 SemanticSDS 프레임워크가 최신 복잡한 3D 콘텐츠를 생성하는 데 매우 효과적임을 보여줍니다. 코드: https://github.com/YangLing0818/SemanticSDS-3D
English
Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

Summary

AI-Generated Summary

PDF142November 16, 2024