Compress3D: Um Espaço Latente Comprimido para Geração 3D a partir de uma Única Imagem
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image
March 20, 2024
Autores: Bowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao
cs.AI
Resumo
A geração 3D tem testemunhado avanços significativos, mas a produção eficiente de ativos 3D de alta qualidade a partir de uma única imagem continua sendo um desafio. Neste artigo, apresentamos um autoencoder de triplano, que codifica modelos 3D em um espaço latente compacto de triplano para comprimir efetivamente tanto a geometria quanto as informações de textura 3D. Dentro do framework do autoencoder, introduzimos um mecanismo de atenção cruzada 3D, que utiliza representações latentes de baixa resolução para consultar características de um volume de características 3D de alta resolução, melhorando assim a capacidade de representação do espaço latente. Posteriormente, treinamos um modelo de difusão nesse espaço latente refinado. Em contraste com a dependência exclusiva do embedding de imagem para geração 3D, nosso método proposto defende a utilização simultânea de ambos os embeddings de imagem e de forma como condições. Especificamente, o embedding de forma é estimado por meio de um modelo de difusão condicionado ao embedding de imagem. Através de experimentos abrangentes, demonstramos que nosso método supera os algoritmos state-of-the-art, alcançando desempenho superior enquanto requer menos dados e tempo de treinamento. Nossa abordagem permite a geração de ativos 3D de alta qualidade em meros 7 segundos em uma única GPU A100.
English
3D generation has witnessed significant advancements, yet efficiently
producing high-quality 3D assets from a single image remains challenging. In
this paper, we present a triplane autoencoder, which encodes 3D models into a
compact triplane latent space to effectively compress both the 3D geometry and
texture information. Within the autoencoder framework, we introduce a 3D-aware
cross-attention mechanism, which utilizes low-resolution latent representations
to query features from a high-resolution 3D feature volume, thereby enhancing
the representation capacity of the latent space. Subsequently, we train a
diffusion model on this refined latent space. In contrast to solely relying on
image embedding for 3D generation, our proposed method advocates for the
simultaneous utilization of both image embedding and shape embedding as
conditions. Specifically, the shape embedding is estimated via a diffusion
prior model conditioned on the image embedding. Through comprehensive
experiments, we demonstrate that our method outperforms state-of-the-art
algorithms, achieving superior performance while requiring less training data
and time. Our approach enables the generation of high-quality 3D assets in
merely 7 seconds on a single A100 GPU.