Generazione Controllabile da Testo a 3D tramite Splatting Gaussiano Allineato alla Superficie

Abstract

Mentre i compiti di generazione da testo a 3D e da immagine a 3D hanno ricevuto notevole attenzione, un campo importante ma poco esplorato tra di essi è la generazione controllata da testo a 3D, su cui ci concentriamo principalmente in questo lavoro. Per affrontare questo compito, 1) introduciamo Multi-view ControlNet (MVControl), una nuova architettura di rete neurale progettata per migliorare i modelli di diffusione multi-vista pre-addestrati esistenti integrando condizioni di input aggiuntive, come mappe di edge, profondità, normali e schizzi. La nostra innovazione risiede nell'introduzione di un modulo di condizionamento che controlla il modello di diffusione di base utilizzando sia embedding locali che globali, calcolati dalle immagini di condizione di input e dalle pose della telecamera. Una volta addestrato, MVControl è in grado di fornire una guida alla diffusione 3D per la generazione 3D basata su ottimizzazione. E, 2) proponiamo una pipeline efficiente di generazione 3D multi-stadio che sfrutta i vantaggi dei recenti modelli di ricostruzione su larga scala e dell'algoritmo di distillazione del punteggio. Basandoci sulla nostra architettura MVControl, utilizziamo un metodo unico di guida alla diffusione ibrida per dirigere il processo di ottimizzazione. Alla ricerca dell'efficienza, adottiamo i 3D Gaussiani come nostra rappresentazione invece delle comuni rappresentazioni implicite. Siamo anche pionieri nell'uso di SuGaR, una rappresentazione ibrida che lega i Gaussiani alle facce triangolari della mesh. Questo approccio allevia il problema della geometria scadente nei 3D Gaussiani e consente la scultura diretta della geometria fine sulla mesh. Esperimenti estesi dimostrano che il nostro metodo raggiunge una generalizzazione robusta e abilita la generazione controllata di contenuti 3D di alta qualità.

English

While text-to-3D and image-to-3D generation tasks have received considerable attention, one important but under-explored field between them is controllable text-to-3D generation, which we mainly focus on in this work. To address this task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network architecture designed to enhance existing pre-trained multi-view diffusion models by integrating additional input conditions, such as edge, depth, normal, and scribble maps. Our innovation lies in the introduction of a conditioning module that controls the base diffusion model using both local and global embeddings, which are computed from the input condition images and camera poses. Once trained, MVControl is able to offer 3D diffusion guidance for optimization-based 3D generation. And, 2) we propose an efficient multi-stage 3D generation pipeline that leverages the benefits of recent large reconstruction models and score distillation algorithm. Building upon our MVControl architecture, we employ a unique hybrid diffusion guidance method to direct the optimization process. In pursuit of efficiency, we adopt 3D Gaussians as our representation instead of the commonly used implicit representations. We also pioneer the use of SuGaR, a hybrid representation that binds Gaussians to mesh triangle faces. This approach alleviates the issue of poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained geometry on the mesh. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content.

Generazione Controllabile da Testo a 3D tramite Splatting Gaussiano Allineato alla Superficie

Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting

Abstract

Support