Kiss3DGen: Umwidmung von Bilddiffusionsmodellen für die 3D-Asset-Generierung
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
March 3, 2025
Autoren: Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen
cs.AI
Zusammenfassung
Diffusionsmodelle haben große Erfolge bei der Generierung von 2D-Bildern erzielt. Die Qualität und Generalisierbarkeit der 3D-Inhaltsgenerierung bleiben jedoch begrenzt. State-of-the-Art-Methoden erfordern oft groß angelegte 3D-Assets für das Training, die schwer zu beschaffen sind. In dieser Arbeit stellen wir Kiss3DGen (Keep It Simple and Straightforward in 3D Generation) vor, ein effizientes Framework zur Generierung, Bearbeitung und Verbesserung von 3D-Objekten, indem ein gut trainiertes 2D-Bilddiffusionsmodell für die 3D-Generierung wiederverwendet wird. Konkret feintunen wir ein Diffusionsmodell, um „3D-Bundle-Images“ zu generieren, eine gekachelte Darstellung, die aus Multi-View-Bildern und ihren entsprechenden Normalmaps besteht. Die Normalmaps werden dann verwendet, um ein 3D-Mesh zu rekonstruieren, und die Multi-View-Bilder liefern die Texturabbildung, was zu einem vollständigen 3D-Modell führt. Diese einfache Methode transformiert das Problem der 3D-Generierung effektiv in eine 2D-Bildgenerierungsaufgabe und maximiert die Nutzung des Wissens in vortrainierten Diffusionsmodellen. Darüber hinaus zeigen wir, dass unser Kiss3DGen-Modell mit verschiedenen Diffusionsmodelltechniken kompatibel ist und erweiterte Funktionen wie 3D-Bearbeitung, Mesh- und Texturverbesserung usw. ermöglicht. Durch umfangreiche Experimente demonstrieren wir die Wirksamkeit unseres Ansatzes und zeigen seine Fähigkeit, hochwertige 3D-Modelle effizient zu erzeugen.
English
Diffusion models have achieved great success in generating 2D images.
However, the quality and generalizability of 3D content generation remain
limited. State-of-the-art methods often require large-scale 3D assets for
training, which are challenging to collect. In this work, we introduce
Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient
framework for generating, editing, and enhancing 3D objects by repurposing a
well-trained 2D image diffusion model for 3D generation. Specifically, we
fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled
representation composed of multi-view images and their corresponding normal
maps. The normal maps are then used to reconstruct a 3D mesh, and the
multi-view images provide texture mapping, resulting in a complete 3D model.
This simple method effectively transforms the 3D generation problem into a 2D
image generation task, maximizing the utilization of knowledge in pretrained
diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is
compatible with various diffusion model techniques, enabling advanced features
such as 3D editing, mesh and texture enhancement, etc. Through extensive
experiments, we demonstrate the effectiveness of our approach, showcasing its
ability to produce high-quality 3D models efficiently.Summary
AI-Generated Summary