ChatPaper.aiChatPaper

Codificación Multi-Modal Colaborativa para la Generación de Modelos 3D de Alta Calidad

Collaborative Multi-Modal Coding for High-Quality 3D Generation

August 21, 2025
Autores: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

Resumen

El contenido 3D posee inherentemente características multimodales y puede proyectarse en diferentes modalidades (por ejemplo, imágenes RGB, RGBD y nubes de puntos). Cada modalidad presenta ventajas distintivas en el modelado de activos 3D: las imágenes RGB contienen texturas 3D vívidas, mientras que las nubes de puntos definen geometrías 3D detalladas. Sin embargo, la mayoría de las arquitecturas generativas nativas 3D existentes operan predominantemente dentro de paradigmas de una sola modalidad, pasando por alto los beneficios complementarios de los datos multimodales, o se limitan a estructuras 3D, restringiendo así el alcance de los conjuntos de datos de entrenamiento disponibles. Para aprovechar de manera integral las multimodales en el modelado 3D, presentamos TriMM, el primer modelo generativo nativo 3D de avance directo que aprende de multimodales básicas (por ejemplo, RGB, RGBD y nube de puntos). Específicamente, 1) TriMM introduce primero la codificación multimodal colaborativa, que integra características específicas de cada modalidad mientras preserva sus fortalezas representativas únicas. 2) Además, se introduce supervisión auxiliar 2D y 3D para aumentar la robustez y el rendimiento de la codificación multimodal. 3) Basándose en el código multimodal integrado, TriMM emplea un modelo de difusión latente en triplano para generar activos 3D de calidad superior, mejorando tanto la textura como el detalle geométrico. Experimentos extensos en múltiples conjuntos de datos conocidos demuestran que TriMM, al aprovechar eficazmente las multimodales, logra un rendimiento competitivo con modelos entrenados en conjuntos de datos a gran escala, a pesar de utilizar una pequeña cantidad de datos de entrenamiento. Además, realizamos experimentos adicionales en conjuntos de datos RGB-D recientes, verificando la viabilidad de incorporar otros conjuntos de datos multimodales en la generación 3D.
English
3D content inherently encompasses multi-modal characteristics and can be projected into different modalities (e.g., RGB images, RGBD, and point clouds). Each modality exhibits distinct advantages in 3D asset modeling: RGB images contain vivid 3D textures, whereas point clouds define fine-grained 3D geometries. However, most existing 3D-native generative architectures either operate predominantly within single-modality paradigms-thus overlooking the complementary benefits of multi-modality data-or restrict themselves to 3D structures, thereby limiting the scope of available training datasets. To holistically harness multi-modalities for 3D modeling, we present TriMM, the first feed-forward 3D-native generative model that learns from basic multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM first introduces collaborative multi-modal coding, which integrates modality-specific features while preserving their unique representational strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to raise the robustness and performance of multi-modal coding. 3) Based on the embedded multi-modal code, TriMM employs a triplane latent diffusion model to generate 3D assets of superior quality, enhancing both the texture and the geometric detail. Extensive experiments on multiple well-known datasets demonstrate that TriMM, by effectively leveraging multi-modality, achieves competitive performance with models trained on large-scale datasets, despite utilizing a small amount of training data. Furthermore, we conduct additional experiments on recent RGB-D datasets, verifying the feasibility of incorporating other multi-modal datasets into 3D generation.
PDF42August 29, 2025