ChatPaper.aiChatPaper

Semantische Score Destillatie Sampling voor Compositie Text-naar-3D Generatie

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

October 11, 2024
Auteurs: Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang
cs.AI

Samenvatting

Het genereren van hoogwaardige 3D-assets uit tekstuele beschrijvingen blijft een cruciale uitdaging in het onderzoek naar computergraphics en computerzicht. Vanwege de schaarste aan 3D-gegevens maken state-of-the-art benaderingen gebruik van vooraf getrainde 2D-diffusiepriori's, geoptimaliseerd via Score Distillation Sampling (SDS). Ondanks de vooruitgang is het nog steeds moeilijk om complexe 3D-scènes te creëren met meerdere objecten of ingewikkelde interacties. Om dit aan te pakken, hebben recente methoden box- of lay-outbegeleiding geïntegreerd. Echter, deze lay-outgestuurde compositorische methoden hebben vaak moeite met het bieden van fijnmazige controle, omdat ze over het algemeen grof zijn en aan expressiviteit ontbreken. Om deze uitdagingen te overwinnen, introduceren we een nieuw SDS-benadering, Semantic Score Distillation Sampling (SemanticSDS), ontworpen om de expressiviteit en nauwkeurigheid van tekst-naar-3D-generatie effectief te verbeteren. Onze benadering integreert nieuwe semantische insluitingen die consistentie behouden over verschillende renderingsweergaven en duidelijk onderscheid maken tussen verschillende objecten en onderdelen. Deze insluitingen worden omgezet in een semantische kaart, die een regiospecifiek SDS-proces aanstuurt, waardoor nauwkeurige optimalisatie en compositorische generatie mogelijk worden. Door expliciete semantische begeleiding te benutten, ontsluit onze methode de compositorische mogelijkheden van bestaande vooraf getrainde diffusiemodellen, waardoor superieure kwaliteit wordt bereikt in de generatie van 3D-inhoud, met name voor complexe objecten en scènes. Experimentele resultaten tonen aan dat ons SemanticSDS-framework zeer effectief is voor het genereren van geavanceerde complexe 3D-inhoud. Code: https://github.com/YangLing0818/SemanticSDS-3D
English
Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

Summary

AI-Generated Summary

PDF142November 16, 2024