ChatPaper.aiChatPaper

Kiss3DGen: Reutilización de Modelos de Difusión de Imágenes para la Generación de Activos 3D

Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

March 3, 2025
Autores: Jiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen
cs.AI

Resumen

Los modelos de difusión han logrado un gran éxito en la generación de imágenes 2D. Sin embargo, la calidad y generalización en la generación de contenido 3D siguen siendo limitadas. Los métodos más avanzados suelen requerir grandes conjuntos de activos 3D para el entrenamiento, los cuales son difíciles de recopilar. En este trabajo, presentamos Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), un marco eficiente para generar, editar y mejorar objetos 3D al reutilizar un modelo de difusión de imágenes 2D bien entrenado para la generación 3D. Específicamente, ajustamos un modelo de difusión para generar "Imágenes de Paquete 3D", una representación en mosaico compuesta por imágenes multivista y sus mapas normales correspondientes. Los mapas normales se utilizan luego para reconstruir una malla 3D, mientras que las imágenes multivista proporcionan el mapeo de texturas, resultando en un modelo 3D completo. Este método simple transforma efectivamente el problema de generación 3D en una tarea de generación de imágenes 2D, maximizando la utilización del conocimiento en modelos de difusión preentrenados. Además, demostramos que nuestro modelo Kiss3DGen es compatible con diversas técnicas de modelos de difusión, permitiendo características avanzadas como edición 3D, mejora de mallas y texturas, entre otros. A través de extensos experimentos, demostramos la efectividad de nuestro enfoque, mostrando su capacidad para producir modelos 3D de alta calidad de manera eficiente.
English
Diffusion models have achieved great success in generating 2D images. However, the quality and generalizability of 3D content generation remain limited. State-of-the-art methods often require large-scale 3D assets for training, which are challenging to collect. In this work, we introduce Kiss3DGen (Keep It Simple and Straightforward in 3D Generation), an efficient framework for generating, editing, and enhancing 3D objects by repurposing a well-trained 2D image diffusion model for 3D generation. Specifically, we fine-tune a diffusion model to generate ''3D Bundle Image'', a tiled representation composed of multi-view images and their corresponding normal maps. The normal maps are then used to reconstruct a 3D mesh, and the multi-view images provide texture mapping, resulting in a complete 3D model. This simple method effectively transforms the 3D generation problem into a 2D image generation task, maximizing the utilization of knowledge in pretrained diffusion models. Furthermore, we demonstrate that our Kiss3DGen model is compatible with various diffusion model techniques, enabling advanced features such as 3D editing, mesh and texture enhancement, etc. Through extensive experiments, we demonstrate the effectiveness of our approach, showcasing its ability to produce high-quality 3D models efficiently.

Summary

AI-Generated Summary

PDF152March 4, 2025