ChatPaper.aiChatPaper

Codifica Multi-Modale Collaborativa per la Generazione di Modelli 3D di Alta Qualità

Collaborative Multi-Modal Coding for High-Quality 3D Generation

August 21, 2025
Autori: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

Abstract

Il contenuto 3D possiede intrinsecamente caratteristiche multimodali e può essere proiettato in diverse modalità (ad esempio, immagini RGB, RGBD e nuvole di punti). Ogni modalità presenta vantaggi distinti nella modellazione di asset 3D: le immagini RGB contengono texture 3D vivide, mentre le nuvole di punti definiscono geometrie 3D dettagliate. Tuttavia, la maggior parte delle architetture generative native 3D esistenti opera prevalentemente in paradigmi a singola modalità, trascurando così i benefici complementari dei dati multimodali, oppure si limita alle strutture 3D, riducendo così l'ampiezza dei dataset di addestramento disponibili. Per sfruttare in modo olistico le multimodali nella modellazione 3D, presentiamo TriMM, il primo modello generativo nativo 3D feed-forward che apprende da multimodali di base (ad esempio, RGB, RGBD e nuvole di punti). Nello specifico, 1) TriMM introduce innanzitutto una codifica multimodale collaborativa, che integra le caratteristiche specifiche di ciascuna modalità preservandone i punti di forza rappresentativi unici. 2) Inoltre, vengono introdotte supervisioni ausiliarie 2D e 3D per aumentare la robustezza e le prestazioni della codifica multimodale. 3) Basandosi sul codice multimodale incorporato, TriMM utilizza un modello di diffusione latente triplanare per generare asset 3D di qualità superiore, migliorando sia la texture che il dettaglio geometrico. Esperimenti estensivi su più dataset noti dimostrano che TriMM, sfruttando efficacemente le multimodali, raggiunge prestazioni competitive con modelli addestrati su dataset su larga scala, nonostante utilizzi una piccola quantità di dati di addestramento. Inoltre, conduciamo ulteriori esperimenti su recenti dataset RGB-D, verificando la fattibilità di incorporare altri dataset multimodali nella generazione 3D.
English
3D content inherently encompasses multi-modal characteristics and can be projected into different modalities (e.g., RGB images, RGBD, and point clouds). Each modality exhibits distinct advantages in 3D asset modeling: RGB images contain vivid 3D textures, whereas point clouds define fine-grained 3D geometries. However, most existing 3D-native generative architectures either operate predominantly within single-modality paradigms-thus overlooking the complementary benefits of multi-modality data-or restrict themselves to 3D structures, thereby limiting the scope of available training datasets. To holistically harness multi-modalities for 3D modeling, we present TriMM, the first feed-forward 3D-native generative model that learns from basic multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM first introduces collaborative multi-modal coding, which integrates modality-specific features while preserving their unique representational strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to raise the robustness and performance of multi-modal coding. 3) Based on the embedded multi-modal code, TriMM employs a triplane latent diffusion model to generate 3D assets of superior quality, enhancing both the texture and the geometric detail. Extensive experiments on multiple well-known datasets demonstrate that TriMM, by effectively leveraging multi-modality, achieves competitive performance with models trained on large-scale datasets, despite utilizing a small amount of training data. Furthermore, we conduct additional experiments on recent RGB-D datasets, verifying the feasibility of incorporating other multi-modal datasets into 3D generation.
PDF42August 29, 2025