Geração Controlável de Texto para 3D via Splatting Gaussiano Alinhado à Superfície
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting
March 15, 2024
Autores: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
cs.AI
Resumo
Embora as tarefas de geração de texto-para-3D e imagem-para-3D tenham recebido considerável atenção, um campo importante, mas pouco explorado entre eles é a geração controlada de texto-para-3D, na qual nos concentramos principalmente neste trabalho. Para abordar essa tarefa, 1) introduzimos o Multi-view ControlNet (MVControl), uma nova arquitetura de rede neural projetada para aprimorar modelos de difusão multi-visão pré-treinados existentes, integrando condições de entrada adicionais, como mapas de borda, profundidade, normal e rabiscos. Nossa inovação reside na introdução de um módulo de condicionamento que controla o modelo de difusão base usando embeddings locais e globais, que são calculados a partir das imagens de condição de entrada e das poses da câmera. Uma vez treinado, o MVControl é capaz de oferecer orientação de difusão 3D para a geração de 3D baseada em otimização. E, 2) propomos um pipeline eficiente de geração de 3D em múltiplos estágios que aproveita os benefícios de modelos recentes de reconstrução em larga escala e do algoritmo de destilação de pontuação. Com base em nossa arquitetura MVControl, empregamos um método único de orientação de difusão híbrida para direcionar o processo de otimização. Em busca de eficiência, adotamos Gaussianas 3D como nossa representação, em vez das representações implícitas comumente usadas. Também pioneiros no uso do SuGaR, uma representação híbrida que vincula Gaussianas às faces dos triângulos da malha. Essa abordagem alivia o problema de geometria pobre em Gaussianas 3D e permite a escultura direta de geometria refinada na malha. Experimentos extensivos demonstram que nosso método alcança generalização robusta e permite a geração controlada de conteúdo 3D de alta qualidade.
English
While text-to-3D and image-to-3D generation tasks have received considerable
attention, one important but under-explored field between them is controllable
text-to-3D generation, which we mainly focus on in this work. To address this
task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network
architecture designed to enhance existing pre-trained multi-view diffusion
models by integrating additional input conditions, such as edge, depth, normal,
and scribble maps. Our innovation lies in the introduction of a conditioning
module that controls the base diffusion model using both local and global
embeddings, which are computed from the input condition images and camera
poses. Once trained, MVControl is able to offer 3D diffusion guidance for
optimization-based 3D generation. And, 2) we propose an efficient multi-stage
3D generation pipeline that leverages the benefits of recent large
reconstruction models and score distillation algorithm. Building upon our
MVControl architecture, we employ a unique hybrid diffusion guidance method to
direct the optimization process. In pursuit of efficiency, we adopt 3D
Gaussians as our representation instead of the commonly used implicit
representations. We also pioneer the use of SuGaR, a hybrid representation that
binds Gaussians to mesh triangle faces. This approach alleviates the issue of
poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained
geometry on the mesh. Extensive experiments demonstrate that our method
achieves robust generalization and enables the controllable generation of
high-quality 3D content.