Campionamento di distillazione del punteggio semantico per la generazione testo-3D compositiva

Abstract

La generazione di asset 3D di alta qualità da descrizioni testuali rimane una sfida cruciale nella ricerca di grafica e visione al calcolatore. A causa della scarsità di dati 3D, gli approcci all'avanguardia utilizzano priori di diffusione 2D pre-addestrati, ottimizzati attraverso il campionamento di distillazione di punteggio (SDS). Nonostante i progressi, la creazione di scene 3D complesse con molteplici oggetti o interazioni intricate rimane difficile. Per affrontare questo problema, i metodi recenti hanno incorporato orientamenti a forma di scatola o layout. Tuttavia, questi metodi compositivi guidati dal layout spesso faticano nel fornire un controllo dettagliato, poiché sono generalmente grossolani e carenti di espressività. Per superare queste sfide, introduciamo un nuovo approccio SDS, Campionamento di Distillazione di Punteggio Semantico (SemanticSDS), progettato per migliorare efficacemente l'espressività e l'accuratezza della generazione testo-3D compositiva. Il nostro approccio integra nuovi embedding semantici che mantengono coerenza tra diverse viste di rendering e differenziano chiaramente tra vari oggetti e parti. Questi embedding vengono trasformati in una mappa semantica, che guida un processo SDS specifico della regione, consentendo un'ottimizzazione precisa e una generazione compositiva. Sfruttando un orientamento semantico esplicito, il nostro metodo sblocca le capacità compositive dei modelli di diffusione pre-addestrati esistenti, ottenendo così una qualità superiore nella generazione di contenuti 3D, in particolare per oggetti e scene complessi. I risultati sperimentali dimostrano che il nostro framework SemanticSDS è altamente efficace per generare contenuti 3D complessi all'avanguardia. Codice: https://github.com/YangLing0818/SemanticSDS-3D

English

Generating high-quality 3D assets from textual descriptions remains a pivotal challenge in computer graphics and vision research. Due to the scarcity of 3D data, state-of-the-art approaches utilize pre-trained 2D diffusion priors, optimized through Score Distillation Sampling (SDS). Despite progress, crafting complex 3D scenes featuring multiple objects or intricate interactions is still difficult. To tackle this, recent methods have incorporated box or layout guidance. However, these layout-guided compositional methods often struggle to provide fine-grained control, as they are generally coarse and lack expressiveness. To overcome these challenges, we introduce a novel SDS approach, Semantic Score Distillation Sampling (SemanticSDS), designed to effectively improve the expressiveness and accuracy of compositional text-to-3D generation. Our approach integrates new semantic embeddings that maintain consistency across different rendering views and clearly differentiate between various objects and parts. These embeddings are transformed into a semantic map, which directs a region-specific SDS process, enabling precise optimization and compositional generation. By leveraging explicit semantic guidance, our method unlocks the compositional capabilities of existing pre-trained diffusion models, thereby achieving superior quality in 3D content generation, particularly for complex objects and scenes. Experimental results demonstrate that our SemanticSDS framework is highly effective for generating state-of-the-art complex 3D content. Code: https://github.com/YangLing0818/SemanticSDS-3D

Campionamento di distillazione del punteggio semantico per la generazione testo-3D compositiva

Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Abstract

Support