Generación Controlable de Texto a 3D mediante Distribución Gaussiana Alineada a la Superficie
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting
March 15, 2024
Autores: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
cs.AI
Resumen
Si bien las tareas de generación de texto-a-3D e imagen-a-3D han recibido considerable atención, un campo importante pero poco explorado entre ellas es la generación controlada de texto-a-3D, en la cual nos enfocamos principalmente en este trabajo. Para abordar esta tarea, 1) presentamos Multi-view ControlNet (MVControl), una novedosa arquitectura de red neuronal diseñada para mejorar los modelos de difusión multi-vista preentrenados existentes mediante la integración de condiciones de entrada adicionales, como mapas de bordes, profundidad, normales y garabatos. Nuestra innovación radica en la introducción de un módulo de condicionamiento que controla el modelo de difusión base utilizando tanto incrustaciones locales como globales, las cuales se calculan a partir de las imágenes de condición de entrada y las poses de la cámara. Una vez entrenado, MVControl es capaz de ofrecer guía de difusión 3D para la generación de 3D basada en optimización. Y, 2) proponemos una canalización eficiente de generación 3D en múltiples etapas que aprovecha los beneficios de los modelos recientes de reconstrucción a gran escala y el algoritmo de destilación de puntuación. Basándonos en nuestra arquitectura MVControl, empleamos un método único de guía de difusión híbrida para dirigir el proceso de optimización. En busca de la eficiencia, adoptamos Gaussianas 3D como nuestra representación en lugar de las representaciones implícitas comúnmente utilizadas. También somos pioneros en el uso de SuGaR, una representación híbrida que vincula Gaussianas a las caras de triángulos de malla. Este enfoque mitiga el problema de la geometría deficiente en las Gaussianas 3D y permite el esculpido directo de geometría de grano fino en la malla. Experimentos extensos demuestran que nuestro método logra una generalización robusta y permite la generación controlada de contenido 3D de alta calidad.
English
While text-to-3D and image-to-3D generation tasks have received considerable
attention, one important but under-explored field between them is controllable
text-to-3D generation, which we mainly focus on in this work. To address this
task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network
architecture designed to enhance existing pre-trained multi-view diffusion
models by integrating additional input conditions, such as edge, depth, normal,
and scribble maps. Our innovation lies in the introduction of a conditioning
module that controls the base diffusion model using both local and global
embeddings, which are computed from the input condition images and camera
poses. Once trained, MVControl is able to offer 3D diffusion guidance for
optimization-based 3D generation. And, 2) we propose an efficient multi-stage
3D generation pipeline that leverages the benefits of recent large
reconstruction models and score distillation algorithm. Building upon our
MVControl architecture, we employ a unique hybrid diffusion guidance method to
direct the optimization process. In pursuit of efficiency, we adopt 3D
Gaussians as our representation instead of the commonly used implicit
representations. We also pioneer the use of SuGaR, a hybrid representation that
binds Gaussians to mesh triangle faces. This approach alleviates the issue of
poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained
geometry on the mesh. Extensive experiments demonstrate that our method
achieves robust generalization and enables the controllable generation of
high-quality 3D content.Summary
AI-Generated Summary