Generazione Controllabile da Testo a 3D tramite Splatting Gaussiano Allineato alla Superficie
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting
March 15, 2024
Autori: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
cs.AI
Abstract
Mentre i compiti di generazione da testo a 3D e da immagine a 3D hanno ricevuto notevole attenzione, un campo importante ma poco esplorato tra di essi è la generazione controllata da testo a 3D, su cui ci concentriamo principalmente in questo lavoro. Per affrontare questo compito, 1) introduciamo Multi-view ControlNet (MVControl), una nuova architettura di rete neurale progettata per migliorare i modelli di diffusione multi-vista pre-addestrati esistenti integrando condizioni di input aggiuntive, come mappe di edge, profondità, normali e schizzi. La nostra innovazione risiede nell'introduzione di un modulo di condizionamento che controlla il modello di diffusione di base utilizzando sia embedding locali che globali, calcolati dalle immagini di condizione di input e dalle pose della telecamera. Una volta addestrato, MVControl è in grado di fornire una guida alla diffusione 3D per la generazione 3D basata su ottimizzazione. E, 2) proponiamo una pipeline efficiente di generazione 3D multi-stadio che sfrutta i vantaggi dei recenti modelli di ricostruzione su larga scala e dell'algoritmo di distillazione del punteggio. Basandoci sulla nostra architettura MVControl, utilizziamo un metodo unico di guida alla diffusione ibrida per dirigere il processo di ottimizzazione. Alla ricerca dell'efficienza, adottiamo i 3D Gaussiani come nostra rappresentazione invece delle comuni rappresentazioni implicite. Siamo anche pionieri nell'uso di SuGaR, una rappresentazione ibrida che lega i Gaussiani alle facce triangolari della mesh. Questo approccio allevia il problema della geometria scadente nei 3D Gaussiani e consente la scultura diretta della geometria fine sulla mesh. Esperimenti estesi dimostrano che il nostro metodo raggiunge una generalizzazione robusta e abilita la generazione controllata di contenuti 3D di alta qualità.
English
While text-to-3D and image-to-3D generation tasks have received considerable
attention, one important but under-explored field between them is controllable
text-to-3D generation, which we mainly focus on in this work. To address this
task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network
architecture designed to enhance existing pre-trained multi-view diffusion
models by integrating additional input conditions, such as edge, depth, normal,
and scribble maps. Our innovation lies in the introduction of a conditioning
module that controls the base diffusion model using both local and global
embeddings, which are computed from the input condition images and camera
poses. Once trained, MVControl is able to offer 3D diffusion guidance for
optimization-based 3D generation. And, 2) we propose an efficient multi-stage
3D generation pipeline that leverages the benefits of recent large
reconstruction models and score distillation algorithm. Building upon our
MVControl architecture, we employ a unique hybrid diffusion guidance method to
direct the optimization process. In pursuit of efficiency, we adopt 3D
Gaussians as our representation instead of the commonly used implicit
representations. We also pioneer the use of SuGaR, a hybrid representation that
binds Gaussians to mesh triangle faces. This approach alleviates the issue of
poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained
geometry on the mesh. Extensive experiments demonstrate that our method
achieves robust generalization and enables the controllable generation of
high-quality 3D content.