Kiss3DGen: Reaproveitando Modelos de Difusão de Imagens para Geração de Ativos 3D
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
March 3, 2025
Autores: Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen
cs.AI
Resumo
Modelos de difusão têm alcançado grande sucesso na geração de imagens 2D. No entanto, a qualidade e a generalização da geração de conteúdo 3D permanecem limitadas. Métodos de ponta frequentemente exigem grandes conjuntos de ativos 3D para treinamento, que são desafiadores de coletar. Neste trabalho, apresentamos o Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), uma estrutura eficiente para gerar, editar e aprimorar objetos 3D, reutilizando um modelo de difusão de imagens 2D bem treinado para geração 3D. Especificamente, ajustamos um modelo de difusão para gerar "Imagem de Pacote 3D", uma representação em mosaico composta por imagens de múltiplas vistas e seus mapas normais correspondentes. Os mapas normais são então usados para reconstruir uma malha 3D, e as imagens de múltiplas vistas fornecem o mapeamento de textura, resultando em um modelo 3D completo. Esse método simples transforma efetivamente o problema de geração 3D em uma tarefa de geração de imagens 2D, maximizando a utilização do conhecimento em modelos de difusão pré-treinados. Além disso, demonstramos que nosso modelo Kiss3DGen é compatível com várias técnicas de modelos de difusão, permitindo recursos avançados como edição 3D, aprimoramento de malhas e texturas, entre outros. Através de extensos experimentos, demonstramos a eficácia de nossa abordagem, mostrando sua capacidade de produzir modelos 3D de alta qualidade de forma eficiente.
English
Diffusion models have achieved great success in generating 2D images.
However, the quality and generalizability of 3D content generation remain
limited. State-of-the-art methods often require large-scale 3D assets for
training, which are challenging to collect. In this work, we introduce
Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient
framework for generating, editing, and enhancing 3D objects by repurposing a
well-trained 2D image diffusion model for 3D generation. Specifically, we
fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled
representation composed of multi-view images and their corresponding normal
maps. The normal maps are then used to reconstruct a 3D mesh, and the
multi-view images provide texture mapping, resulting in a complete 3D model.
This simple method effectively transforms the 3D generation problem into a 2D
image generation task, maximizing the utilization of knowledge in pretrained
diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is
compatible with various diffusion model techniques, enabling advanced features
such as 3D editing, mesh and texture enhancement, etc. Through extensive
experiments, we demonstrate the effectiveness of our approach, showcasing its
ability to produce high-quality 3D models efficiently.Summary
AI-Generated Summary