Kiss3DGen: Hergebruik van beelddiffusiemodellen voor 3D-assetgeneratie
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
March 3, 2025
Auteurs: Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen
cs.AI
Samenvatting
Diffusiemodellen hebben grote successen geboekt bij het genereren van 2D-afbeeldingen.
De kwaliteit en generaliseerbaarheid van 3D-contentgeneratie blijven echter beperkt.
State-of-the-art methoden vereisen vaak grootschalige 3D-assets voor training, die moeilijk te verzamelen zijn.
In dit werk introduceren we Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), een efficiënt raamwerk voor het genereren, bewerken en verbeteren van 3D-objecten door een goed getraind 2D-afbeeldingsdiffusiemodel te hergebruiken voor 3D-generatie.
Specifiek fine-tunen we een diffusiemodel om een "3D Bundle Image" te genereren, een getegelde representatie die bestaat uit multi-view afbeeldingen en hun bijbehorende normal maps.
De normal maps worden vervolgens gebruikt om een 3D-mesh te reconstrueren, en de multi-view afbeeldingen zorgen voor texture mapping, wat resulteert in een compleet 3D-model.
Deze eenvoudige methode transformeert het 3D-generatieprobleem effectief in een 2D-afbeeldingsgeneratietaak, waardoor de kennis in vooraf getrainde diffusiemodellen maximaal wordt benut.
Bovendien tonen we aan dat ons Kiss3DGen-model compatibel is met verschillende diffusiemodeltechnieken, waardoor geavanceerde functies zoals 3D-bewerking, mesh- en textureverbetering mogelijk worden.
Door middel van uitgebreide experimenten demonstreren we de effectiviteit van onze aanpak, waarbij we het vermogen aantonen om efficiënt hoogwaardige 3D-modellen te produceren.
English
Diffusion models have achieved great success in generating 2D images.
However, the quality and generalizability of 3D content generation remain
limited. State-of-the-art methods often require large-scale 3D assets for
training, which are challenging to collect. In this work, we introduce
Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient
framework for generating, editing, and enhancing 3D objects by repurposing a
well-trained 2D image diffusion model for 3D generation. Specifically, we
fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled
representation composed of multi-view images and their corresponding normal
maps. The normal maps are then used to reconstruct a 3D mesh, and the
multi-view images provide texture mapping, resulting in a complete 3D model.
This simple method effectively transforms the 3D generation problem into a 2D
image generation task, maximizing the utilization of knowledge in pretrained
diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is
compatible with various diffusion model techniques, enabling advanced features
such as 3D editing, mesh and texture enhancement, etc. Through extensive
experiments, we demonstrate the effectiveness of our approach, showcasing its
ability to produce high-quality 3D models efficiently.Summary
AI-Generated Summary