VolumeDiffusion : Génération flexible de texte en 3D avec un encodeur volumétrique efficace
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder
December 18, 2023
Auteurs: Zhicong Tang, Shuyang Gu, Chunyu Wang, Ting Zhang, Jianmin Bao, Dong Chen, Baining Guo
cs.AI
Résumé
Cet article présente un encodeur volumétrique 3D novateur conçu pour la génération de texte-à-3D. Pour augmenter les données d'entraînement du modèle de diffusion, un réseau léger est développé afin d'acquérir efficacement des volumes de caractéristiques à partir d'images multi-vues. Les volumes 3D sont ensuite entraînés sur un modèle de diffusion pour la génération de texte-à-3D en utilisant un réseau U-Net 3D. Cette recherche aborde également les défis liés aux légendes d'objets imprécises et aux volumes de caractéristiques de haute dimension. Le modèle proposé, entraîné sur le jeu de données public Objaverse, démontre des résultats prometteurs dans la production d'échantillons divers et reconnaissables à partir de prompts textuels. Notamment, il permet un contrôle plus fin des caractéristiques des parties d'objets grâce à des indices textuels, favorisant la créativité du modèle en combinant de manière fluide plusieurs concepts au sein d'un seul objet. Cette recherche contribue de manière significative aux progrès de la génération 3D en introduisant une méthodologie de représentation efficace, flexible et évolutive. Le code est disponible à l'adresse suivante : https://github.com/tzco/VolumeDiffusion.
English
This paper introduces a pioneering 3D volumetric encoder designed for
text-to-3D generation. To scale up the training data for the diffusion model, a
lightweight network is developed to efficiently acquire feature volumes from
multi-view images. The 3D volumes are then trained on a diffusion model for
text-to-3D generation using a 3D U-Net. This research further addresses the
challenges of inaccurate object captions and high-dimensional feature volumes.
The proposed model, trained on the public Objaverse dataset, demonstrates
promising outcomes in producing diverse and recognizable samples from text
prompts. Notably, it empowers finer control over object part characteristics
through textual cues, fostering model creativity by seamlessly combining
multiple concepts within a single object. This research significantly
contributes to the progress of 3D generation by introducing an efficient,
flexible, and scalable representation methodology. Code is available at
https://github.com/tzco/VolumeDiffusion.