ChatPaper.aiChatPaper

Collaboratieve Multi-Modale Codering voor Hoogwaardige 3D-generatie

Collaborative Multi-Modal Coding for High-Quality 3D Generation

August 21, 2025
Auteurs: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

Samenvatting

3D-inhoud omvat van nature multi-modale kenmerken en kan worden geprojecteerd in verschillende modaliteiten (bijv. RGB-afbeeldingen, RGBD en puntenwolken). Elke modaliteit vertoont duidelijke voordelen bij het modelleren van 3D-assets: RGB-afbeeldingen bevatten levendige 3D-texturen, terwijl puntenwolken fijnmazige 3D-geometrieën definiëren. De meeste bestaande 3D-native generatieve architecturen werken echter voornamelijk binnen enkelvoudige modaliteitsparadigma's, waardoor ze de complementaire voordelen van multi-modale data over het hoofd zien, of beperken zich tot 3D-structuren, waardoor de reikwijdte van beschikbare trainingsdatasets wordt beperkt. Om multi-modaliteiten holistisch te benutten voor 3D-modellering, presenteren we TriMM, het eerste feed-forward 3D-native generatieve model dat leert van basis multi-modaliteiten (bijv. RGB, RGBD en puntenwolk). Specifiek: 1) TriMM introduceert eerst collaboratieve multi-modale codering, die modaliteit-specifieke kenmerken integreert terwijl hun unieke representatieve sterktes behouden blijven. 2) Bovendien worden aanvullende 2D- en 3D-supervisie geïntroduceerd om de robuustheid en prestaties van multi-modale codering te verhogen. 3) Op basis van de ingebedde multi-modale code gebruikt TriMM een triplane latent diffusiemodel om 3D-assets van superieure kwaliteit te genereren, waardoor zowel de textuur als de geometrische detaillering worden verbeterd. Uitgebreide experimenten op meerdere bekende datasets tonen aan dat TriMM, door effectief gebruik te maken van multi-modaliteit, competitieve prestaties bereikt met modellen die op grootschalige datasets zijn getraind, ondanks het gebruik van een kleine hoeveelheid trainingsdata. Daarnaast voeren we aanvullende experimenten uit op recente RGB-D datasets, waarmee de haalbaarheid van het integreren van andere multi-modale datasets in 3D-generatie wordt geverifieerd.
English
3D content inherently encompasses multi-modal characteristics and can be projected into different modalities (e.g., RGB images, RGBD, and point clouds). Each modality exhibits distinct advantages in 3D asset modeling: RGB images contain vivid 3D textures, whereas point clouds define fine-grained 3D geometries. However, most existing 3D-native generative architectures either operate predominantly within single-modality paradigms-thus overlooking the complementary benefits of multi-modality data-or restrict themselves to 3D structures, thereby limiting the scope of available training datasets. To holistically harness multi-modalities for 3D modeling, we present TriMM, the first feed-forward 3D-native generative model that learns from basic multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM first introduces collaborative multi-modal coding, which integrates modality-specific features while preserving their unique representational strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to raise the robustness and performance of multi-modal coding. 3) Based on the embedded multi-modal code, TriMM employs a triplane latent diffusion model to generate 3D assets of superior quality, enhancing both the texture and the geometric detail. Extensive experiments on multiple well-known datasets demonstrate that TriMM, by effectively leveraging multi-modality, achieves competitive performance with models trained on large-scale datasets, despite utilizing a small amount of training data. Furthermore, we conduct additional experiments on recent RGB-D datasets, verifying the feasibility of incorporating other multi-modal datasets into 3D generation.
PDF42August 29, 2025