Kiss3DGen: Riuso di Modelli di Diffusione di Immagini per la Generazione di Asset 3D
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
March 3, 2025
Autori: Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen
cs.AI
Abstract
I modelli di diffusione hanno ottenuto un grande successo nella generazione di immagini 2D. Tuttavia, la qualità e la generalizzabilità della generazione di contenuti 3D rimangono limitate. I metodi all'avanguardia spesso richiedono asset 3D su larga scala per l'addestramento, che sono difficili da raccogliere. In questo lavoro, introduciamo Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), un framework efficiente per generare, modificare e migliorare oggetti 3D riutilizzando un modello di diffusione di immagini 2D ben addestrato per la generazione 3D. Nello specifico, ottimizziamo un modello di diffusione per generare "3D Bundle Image", una rappresentazione affiancata composta da immagini multi-vista e le loro mappe normali corrispondenti. Le mappe normali vengono quindi utilizzate per ricostruire una mesh 3D, e le immagini multi-vista forniscono il mapping delle texture, risultando in un modello 3D completo. Questo metodo semplice trasforma efficacemente il problema della generazione 3D in un compito di generazione di immagini 2D, massimizzando l'utilizzo delle conoscenze nei modelli di diffusione pre-addestrati. Inoltre, dimostriamo che il nostro modello Kiss3DGen è compatibile con varie tecniche di modelli di diffusione, abilitando funzionalità avanzate come la modifica 3D, il miglioramento di mesh e texture, ecc. Attraverso esperimenti estesi, dimostriamo l'efficacia del nostro approccio, mostrando la sua capacità di produrre modelli 3D di alta qualità in modo efficiente.
English
Diffusion models have achieved great success in generating 2D images.
However, the quality and generalizability of 3D content generation remain
limited. State-of-the-art methods often require large-scale 3D assets for
training, which are challenging to collect. In this work, we introduce
Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient
framework for generating, editing, and enhancing 3D objects by repurposing a
well-trained 2D image diffusion model for 3D generation. Specifically, we
fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled
representation composed of multi-view images and their corresponding normal
maps. The normal maps are then used to reconstruct a 3D mesh, and the
multi-view images provide texture mapping, resulting in a complete 3D model.
This simple method effectively transforms the 3D generation problem into a 2D
image generation task, maximizing the utilization of knowledge in pretrained
diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is
compatible with various diffusion model techniques, enabling advanced features
such as 3D editing, mesh and texture enhancement, etc. Through extensive
experiments, we demonstrate the effectiveness of our approach, showcasing its
ability to produce high-quality 3D models efficiently.Summary
AI-Generated Summary