Управляемая генерация текста в 3D с помощью выравнивания поверхности и гауссовского сглаживания.
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting
March 15, 2024
Авторы: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
cs.AI
Аннотация
Хотя задачи генерации текста в 3D и изображения в 3D получили значительное внимание, одно важное, но мало исследованное поле между ними - это управляемая генерация текста в 3D, на которой мы в основном сосредотачиваемся в данной работе. Для решения этой задачи 1) мы представляем Multi-view ControlNet (MVControl), новую архитектуру нейронной сети, разработанную для улучшения существующих предварительно обученных моделей диффузии с множеством видов путем интеграции дополнительных входных условий, таких как края, глубина, нормаль и карты штрихов. Наше новшество заключается во введении модуля условий, который управляет базовой моделью диффузии, используя как локальные, так и глобальные вложения, которые вычисляются из изображений входных условий и позиций камеры. После обучения MVControl способен предложить руководство диффузией в 3D для генерации 3D на основе оптимизации. И, 2) мы предлагаем эффективный многоэтапный конвейер генерации 3D, который использует преимущества недавних крупных моделей реконструкции и алгоритма дистилляции оценок. Основываясь на нашей архитектуре MVControl, мы используем уникальный метод гибридного руководства диффузией для направления процесса оптимизации. В стремлении к эффективности мы используем 3D гауссианы в качестве нашего представления вместо широко используемых неявных представлений. Мы также открываем использование SuGaR, гибридного представления, которое связывает гауссианы с треугольными гранями сетки. Этот подход устраняет проблему плохой геометрии в 3D гауссианах и позволяет прямое моделирование мелкозернистой геометрии на сетке. Обширные эксперименты показывают, что наш метод достигает надежной обобщаемости и позволяет управляемо генерировать высококачественный 3D контент.
English
While text-to-3D and image-to-3D generation tasks have received considerable
attention, one important but under-explored field between them is controllable
text-to-3D generation, which we mainly focus on in this work. To address this
task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network
architecture designed to enhance existing pre-trained multi-view diffusion
models by integrating additional input conditions, such as edge, depth, normal,
and scribble maps. Our innovation lies in the introduction of a conditioning
module that controls the base diffusion model using both local and global
embeddings, which are computed from the input condition images and camera
poses. Once trained, MVControl is able to offer 3D diffusion guidance for
optimization-based 3D generation. And, 2) we propose an efficient multi-stage
3D generation pipeline that leverages the benefits of recent large
reconstruction models and score distillation algorithm. Building upon our
MVControl architecture, we employ a unique hybrid diffusion guidance method to
direct the optimization process. In pursuit of efficiency, we adopt 3D
Gaussians as our representation instead of the commonly used implicit
representations. We also pioneer the use of SuGaR, a hybrid representation that
binds Gaussians to mesh triangle faces. This approach alleviates the issue of
poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained
geometry on the mesh. Extensive experiments demonstrate that our method
achieves robust generalization and enables the controllable generation of
high-quality 3D content.Summary
AI-Generated Summary