Compress3D: сжатое латентное пространство для генерации 3D изображений по одному изображению
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image
March 20, 2024
Авторы: Bowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao
cs.AI
Аннотация
Генерация трехмерных объектов претерпела значительные усовершенствования, однако эффективное создание высококачественных трехмерных ресурсов из одного изображения остается сложной задачей. В данной статье мы представляем трипланарный автоэнкодер, который кодирует трехмерные модели в компактное трипланарное скрытое пространство для эффективного сжатия как геометрической, так и текстурной информации трехмерных объектов. В рамках автоэнкодера мы вводим механизм кросс-внимания, осведомленный о трехмерном пространстве, который использует низкоразрешенные скрытые представления для запроса признаков из объема признаков трехмерных объектов высокого разрешения, тем самым улучшая емкость представления скрытого пространства. Затем мы обучаем модель диффузии на этом улучшенном скрытом пространстве. В отличие от полного использования встраивания изображения для генерации трехмерных объектов, наш метод предлагает одновременное использование как встраивания изображения, так и встраивания формы в качестве условий. В частности, встраивание формы оценивается с помощью модели диффузии, обусловленной встраиванием изображения. Через обширные эксперименты мы демонстрируем, что наш метод превосходит современные алгоритмы, достигая высокой производительности при этом требуя меньше обучающих данных и времени. Наш подход позволяет генерировать высококачественные трехмерные объекты всего за 7 секунд на одном графическом процессоре A100.
English
3D generation has witnessed significant advancements, yet efficiently
producing high-quality 3D assets from a single image remains challenging. In
this paper, we present a triplane autoencoder, which encodes 3D models into a
compact triplane latent space to effectively compress both the 3D geometry and
texture information. Within the autoencoder framework, we introduce a 3D-aware
cross-attention mechanism, which utilizes low-resolution latent representations
to query features from a high-resolution 3D feature volume, thereby enhancing
the representation capacity of the latent space. Subsequently, we train a
diffusion model on this refined latent space. In contrast to solely relying on
image embedding for 3D generation, our proposed method advocates for the
simultaneous utilization of both image embedding and shape embedding as
conditions. Specifically, the shape embedding is estimated via a diffusion
prior model conditioned on the image embedding. Through comprehensive
experiments, we demonstrate that our method outperforms state-of-the-art
algorithms, achieving superior performance while requiring less training data
and time. Our approach enables the generation of high-quality 3D assets in
merely 7 seconds on a single A100 GPU.Summary
AI-Generated Summary