고품질 3D 생성을 위한 협업적 다중 모달 코딩
Collaborative Multi-Modal Coding for High-Quality 3D Generation
August 21, 2025
저자: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
초록
3D 콘텐츠는 본질적으로 다중 모달(multi-modal) 특성을 내포하고 있으며, 다양한 모달리티(예: RGB 이미지, RGBD, 포인트 클라우드)로 투영될 수 있습니다. 각 모달리티는 3D 자산 모델링에서 고유한 장점을 보입니다: RGB 이미지는 생생한 3D 텍스처를 포함하는 반면, 포인트 클라우드는 세밀한 3D 기하학적 구조를 정의합니다. 그러나 기존의 대부분의 3D 네이티브 생성 아키텍처는 주로 단일 모달리티 패러다임 내에서 작동하므로 다중 모달리티 데이터의 상호 보완적 이점을 간과하거나, 3D 구조에만 국한되어 사용 가능한 훈련 데이터셋의 범위를 제한합니다. 3D 모델링을 위해 다중 모달리티를 종합적으로 활용하기 위해, 우리는 기본적인 다중 모달리티(예: RGB, RGBD, 포인트 클라우드)로부터 학습하는 최초의 피드포워드(feed-forward) 3D 네이티브 생성 모델인 TriMM을 제시합니다. 구체적으로, 1) TriMM은 먼저 협력적 다중 모달 코딩을 도입하여 모달리티별 특징을 통합하면서도 각각의 고유한 표현 강점을 보존합니다. 2) 또한, 보조적인 2D 및 3D 감독(supervision)을 도입하여 다중 모달 코딩의 견고성과 성능을 향상시킵니다. 3) 내장된 다중 모달 코드를 기반으로, TriMM은 트라이플레인(triplane) 잠재 확산 모델을 사용하여 텍스처와 기하학적 디테일 모두를 향상시킨 우수한 품질의 3D 자산을 생성합니다. 여러 유명 데이터셋에 대한 광범위한 실험을 통해 TriMM은 다중 모달리티를 효과적으로 활용함으로써 대규모 데이터셋으로 훈련된 모델들과 경쟁력 있는 성능을 달성하며, 소량의 훈련 데이터만을 사용함을 입증했습니다. 또한, 최근의 RGB-D 데이터셋에 대한 추가 실험을 통해 다른 다중 모달리티 데이터셋을 3D 생성에 통합하는 가능성을 검증했습니다.
English
3D content inherently encompasses multi-modal characteristics and can be
projected into different modalities (e.g., RGB images, RGBD, and point clouds).
Each modality exhibits distinct advantages in 3D asset modeling: RGB images
contain vivid 3D textures, whereas point clouds define fine-grained 3D
geometries. However, most existing 3D-native generative architectures either
operate predominantly within single-modality paradigms-thus overlooking the
complementary benefits of multi-modality data-or restrict themselves to 3D
structures, thereby limiting the scope of available training datasets. To
holistically harness multi-modalities for 3D modeling, we present TriMM, the
first feed-forward 3D-native generative model that learns from basic
multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM
first introduces collaborative multi-modal coding, which integrates
modality-specific features while preserving their unique representational
strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to
raise the robustness and performance of multi-modal coding. 3) Based on the
embedded multi-modal code, TriMM employs a triplane latent diffusion model to
generate 3D assets of superior quality, enhancing both the texture and the
geometric detail. Extensive experiments on multiple well-known datasets
demonstrate that TriMM, by effectively leveraging multi-modality, achieves
competitive performance with models trained on large-scale datasets, despite
utilizing a small amount of training data. Furthermore, we conduct additional
experiments on recent RGB-D datasets, verifying the feasibility of
incorporating other multi-modal datasets into 3D generation.