Kiss3DGen : Réutilisation des modèles de diffusion d'images pour la génération d'actifs 3D
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
March 3, 2025
papers.authors: Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen
cs.AI
papers.abstract
Les modèles de diffusion ont obtenu un grand succès dans la génération d'images 2D. Cependant, la qualité et la généralisabilité de la génération de contenu 3D restent limitées. Les méthodes de pointe nécessitent souvent des ressources 3D à grande échelle pour l'entraînement, qui sont difficiles à collecter. Dans ce travail, nous présentons Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), un cadre efficace pour générer, éditer et améliorer des objets 3D en réutilisant un modèle de diffusion d'images 2D bien entraîné pour la génération 3D. Plus précisément, nous affinons un modèle de diffusion pour générer une « Image Bundle 3D », une représentation en mosaïque composée d'images multi-vues et de leurs cartes normales correspondantes. Les cartes normales sont ensuite utilisées pour reconstruire un maillage 3D, et les images multi-vues fournissent le mappage de texture, aboutissant à un modèle 3D complet. Cette méthode simple transforme efficacement le problème de génération 3D en une tâche de génération d'images 2D, maximisant l'utilisation des connaissances des modèles de diffusion pré-entraînés. De plus, nous démontrons que notre modèle Kiss3DGen est compatible avec diverses techniques de modèles de diffusion, permettant des fonctionnalités avancées telles que l'édition 3D, l'amélioration des maillages et des textures, etc. À travers des expériences approfondies, nous démontrons l'efficacité de notre approche, mettant en évidence sa capacité à produire des modèles 3D de haute qualité de manière efficace.
English
Diffusion models have achieved great success in generating 2D images.
However, the quality and generalizability of 3D content generation remain
limited. State-of-the-art methods often require large-scale 3D assets for
training, which are challenging to collect. In this work, we introduce
Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient
framework for generating, editing, and enhancing 3D objects by repurposing a
well-trained 2D image diffusion model for 3D generation. Specifically, we
fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled
representation composed of multi-view images and their corresponding normal
maps. The normal maps are then used to reconstruct a 3D mesh, and the
multi-view images provide texture mapping, resulting in a complete 3D model.
This simple method effectively transforms the 3D generation problem into a 2D
image generation task, maximizing the utilization of knowledge in pretrained
diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is
compatible with various diffusion model techniques, enabling advanced features
such as 3D editing, mesh and texture enhancement, etc. Through extensive
experiments, we demonstrate the effectiveness of our approach, showcasing its
ability to produce high-quality 3D models efficiently.