Kiss3DGen: Reaproveitando Modelos de Difusão de Imagens para Geração de Ativos 3D

Resumo

Modelos de difusão têm alcançado grande sucesso na geração de imagens 2D. No entanto, a qualidade e a generalização da geração de conteúdo 3D permanecem limitadas. Métodos de ponta frequentemente exigem grandes conjuntos de ativos 3D para treinamento, que são desafiadores de coletar. Neste trabalho, apresentamos o Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), uma estrutura eficiente para gerar, editar e aprimorar objetos 3D, reutilizando um modelo de difusão de imagens 2D bem treinado para geração 3D. Especificamente, ajustamos um modelo de difusão para gerar "Imagem de Pacote 3D", uma representação em mosaico composta por imagens de múltiplas vistas e seus mapas normais correspondentes. Os mapas normais são então usados para reconstruir uma malha 3D, e as imagens de múltiplas vistas fornecem o mapeamento de textura, resultando em um modelo 3D completo. Esse método simples transforma efetivamente o problema de geração 3D em uma tarefa de geração de imagens 2D, maximizando a utilização do conhecimento em modelos de difusão pré-treinados. Além disso, demonstramos que nosso modelo Kiss3DGen é compatível com várias técnicas de modelos de difusão, permitindo recursos avançados como edição 3D, aprimoramento de malhas e texturas, entre outros. Através de extensos experimentos, demonstramos a eficácia de nossa abordagem, mostrando sua capacidade de produzir modelos 3D de alta qualidade de forma eficiente.

English

Diffusion models have achieved great success in generating 2D images. However, the quality and generalizability of 3D content generation remain limited. State-of-the-art methods often require large-scale 3D assets for training, which are challenging to collect. In this work, we introduce Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient framework for generating, editing, and enhancing 3D objects by repurposing a well-trained 2D image diffusion model for 3D generation. Specifically, we fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled representation composed of multi-view images and their corresponding normal maps. The normal maps are then used to reconstruct a 3D mesh, and the multi-view images provide texture mapping, resulting in a complete 3D model. This simple method effectively transforms the 3D generation problem into a 2D image generation task, maximizing the utilization of knowledge in pretrained diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is compatible with various diffusion model techniques, enabling advanced features such as 3D editing, mesh and texture enhancement, etc. Through extensive experiments, we demonstrate the effectiveness of our approach, showcasing its ability to produce high-quality 3D models efficiently.

Kiss3DGen: Reaproveitando Modelos de Difusão de Imagens para Geração de Ativos 3D

Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

Resumo

Summary

Support

Support