ChatPaper.aiChatPaper

Codificação Multimodal Colaborativa para Geração de Qualidade em 3D

Collaborative Multi-Modal Coding for High-Quality 3D Generation

August 21, 2025
Autores: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

Resumo

O conteúdo 3D possui, por natureza, características multimodais e pode ser projetado em diferentes modalidades (por exemplo, imagens RGB, RGBD e nuvens de pontos). Cada modalidade apresenta vantagens distintas na modelagem de ativos 3D: as imagens RGB contêm texturas 3D vívidas, enquanto as nuvens de pontos definem geometrias 3D detalhadas. No entanto, a maioria das arquiteturas generativas nativas 3D existentes opera predominantemente em paradigmas de modalidade única, ignorando assim os benefícios complementares dos dados multimodais, ou se restringe a estruturas 3D, limitando o escopo dos conjuntos de dados de treinamento disponíveis. Para aproveitar holisticamente as multimodais na modelagem 3D, apresentamos o TriMM, o primeiro modelo generativo nativo 3D de avanço direto que aprende a partir de multimodais básicas (por exemplo, RGB, RGBD e nuvem de pontos). Especificamente, 1) o TriMM introduz primeiro a codificação multimodal colaborativa, que integra características específicas de cada modalidade, preservando seus pontos fortes representacionais únicos. 2) Além disso, supervisões auxiliares 2D e 3D são introduzidas para aumentar a robustez e o desempenho da codificação multimodal. 3) Com base no código multimodal incorporado, o TriMM emprega um modelo de difusão latente triplano para gerar ativos 3D de qualidade superior, aprimorando tanto a textura quanto o detalhe geométrico. Experimentos extensivos em vários conjuntos de dados conhecidos demonstram que o TriMM, ao aproveitar efetivamente a multimodalidade, alcança desempenho competitivo com modelos treinados em grandes conjuntos de dados, apesar de utilizar uma pequena quantidade de dados de treinamento. Além disso, realizamos experimentos adicionais em conjuntos de dados RGB-D recentes, verificando a viabilidade de incorporar outros conjuntos de dados multimodais na geração 3D.
English
3D content inherently encompasses multi-modal characteristics and can be projected into different modalities (e.g., RGB images, RGBD, and point clouds). Each modality exhibits distinct advantages in 3D asset modeling: RGB images contain vivid 3D textures, whereas point clouds define fine-grained 3D geometries. However, most existing 3D-native generative architectures either operate predominantly within single-modality paradigms-thus overlooking the complementary benefits of multi-modality data-or restrict themselves to 3D structures, thereby limiting the scope of available training datasets. To holistically harness multi-modalities for 3D modeling, we present TriMM, the first feed-forward 3D-native generative model that learns from basic multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM first introduces collaborative multi-modal coding, which integrates modality-specific features while preserving their unique representational strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to raise the robustness and performance of multi-modal coding. 3) Based on the embedded multi-modal code, TriMM employs a triplane latent diffusion model to generate 3D assets of superior quality, enhancing both the texture and the geometric detail. Extensive experiments on multiple well-known datasets demonstrate that TriMM, by effectively leveraging multi-modality, achieves competitive performance with models trained on large-scale datasets, despite utilizing a small amount of training data. Furthermore, we conduct additional experiments on recent RGB-D datasets, verifying the feasibility of incorporating other multi-modal datasets into 3D generation.
PDF42August 29, 2025