Codage Multimodal Collaboratif pour la Génération 3D de Haute Qualité
Collaborative Multi-Modal Coding for High-Quality 3D Generation
August 21, 2025
papers.authors: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
papers.abstract
Le contenu 3D possède intrinsèquement des caractéristiques multimodales et peut être projeté dans différentes modalités (par exemple, images RVB, RVBD et nuages de points). Chaque modalité présente des avantages distincts dans la modélisation d'actifs 3D : les images RVB contiennent des textures 3D vives, tandis que les nuages de points définissent des géométries 3D fines. Cependant, la plupart des architectures génératives natives 3D existantes opèrent principalement dans des paradigmes unimodaux, négligeant ainsi les avantages complémentaires des données multimodales, ou se limitent aux structures 3D, restreignant ainsi l'étendue des ensembles de données d'entraînement disponibles. Pour exploiter de manière holistique les multimodalities dans la modélisation 3D, nous présentons TriMM, le premier modèle génératif natif 3D à propagation directe qui apprend à partir de multimodalities de base (par exemple, RVB, RVBD et nuage de points). Plus précisément, 1) TriMM introduit d'abord un codage multimodal collaboratif, qui intègre des caractéristiques spécifiques à chaque modalité tout en préservant leurs forces représentatives uniques. 2) En outre, des supervisions auxiliaires 2D et 3D sont introduites pour renforcer la robustesse et les performances du codage multimodal. 3) Sur la base du code multimodal intégré, TriMM utilise un modèle de diffusion latente triplan pour générer des actifs 3D de qualité supérieure, améliorant à la fois la texture et le détail géométrique. Des expériences approfondies sur plusieurs ensembles de données bien connus démontrent que TriMM, en exploitant efficacement la multimodalité, atteint des performances compétitives avec des modèles entraînés sur des ensembles de données à grande échelle, malgré l'utilisation d'une petite quantité de données d'entraînement. De plus, nous menons des expériences supplémentaires sur des ensembles de données RVB-D récents, vérifiant la faisabilité d'intégrer d'autres ensembles de données multimodales dans la génération 3D.
English
3D content inherently encompasses multi-modal characteristics and can be
projected into different modalities (e.g., RGB images, RGBD, and point clouds).
Each modality exhibits distinct advantages in 3D asset modeling: RGB images
contain vivid 3D textures, whereas point clouds define fine-grained 3D
geometries. However, most existing 3D-native generative architectures either
operate predominantly within single-modality paradigms-thus overlooking the
complementary benefits of multi-modality data-or restrict themselves to 3D
structures, thereby limiting the scope of available training datasets. To
holistically harness multi-modalities for 3D modeling, we present TriMM, the
first feed-forward 3D-native generative model that learns from basic
multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM
first introduces collaborative multi-modal coding, which integrates
modality-specific features while preserving their unique representational
strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to
raise the robustness and performance of multi-modal coding. 3) Based on the
embedded multi-modal code, TriMM employs a triplane latent diffusion model to
generate 3D assets of superior quality, enhancing both the texture and the
geometric detail. Extensive experiments on multiple well-known datasets
demonstrate that TriMM, by effectively leveraging multi-modality, achieves
competitive performance with models trained on large-scale datasets, despite
utilizing a small amount of training data. Furthermore, we conduct additional
experiments on recent RGB-D datasets, verifying the feasibility of
incorporating other multi-modal datasets into 3D generation.