Коллаборативное мультимодальное кодирование для генерации высококачественных 3D-моделей

Аннотация

3D-контент по своей природе обладает мультимодальными характеристиками и может быть проецирован в различные модальности (например, RGB-изображения, RGBD и облака точек). Каждая модальность демонстрирует свои уникальные преимущества в моделировании 3D-активов: RGB-изображения содержат яркие 3D-текстуры, тогда как облака точек определяют детализированные 3D-геометрии. Однако большинство существующих 3D-ориентированных генеративных архитектур либо работают преимущественно в рамках одноканальных парадигм, упуская из виду дополнительные преимущества мультимодальных данных, либо ограничиваются 3D-структурами, тем самым сужая доступный объем обучающих данных. Чтобы комплексно использовать мультимодальность для 3D-моделирования, мы представляем TriMM — первую прямую 3D-ориентированную генеративную модель, которая обучается на базовых мультимодальных данных (например, RGB, RGBD и облака точек). В частности: 1) TriMM впервые вводит совместное мультимодальное кодирование, которое интегрирует специфические для каждой модальности признаки, сохраняя их уникальные репрезентативные преимущества. 2) Кроме того, вводятся вспомогательные 2D и 3D-метки для повышения устойчивости и производительности мультимодального кодирования. 3) На основе встроенного мультимодального кода TriMM использует триплоскостную модель латентной диффузии для генерации 3D-активов высочайшего качества, улучшая как текстуры, так и геометрические детали. Многочисленные эксперименты на нескольких известных наборах данных демонстрируют, что TriMM, эффективно используя мультимодальность, достигает конкурентоспособных результатов с моделями, обученными на крупномасштабных данных, несмотря на использование небольшого объема обучающих данных. Кроме того, мы проводим дополнительные эксперименты на современных RGB-D наборах данных, подтверждая возможность интеграции других мультимодальных данных в процесс 3D-генерации.

English

3D content inherently encompasses multi-modal characteristics and can be projected into different modalities (e.g., RGB images, RGBD, and point clouds). Each modality exhibits distinct advantages in 3D asset modeling: RGB images contain vivid 3D textures, whereas point clouds define fine-grained 3D geometries. However, most existing 3D-native generative architectures either operate predominantly within single-modality paradigms-thus overlooking the complementary benefits of multi-modality data-or restrict themselves to 3D structures, thereby limiting the scope of available training datasets. To holistically harness multi-modalities for 3D modeling, we present TriMM, the first feed-forward 3D-native generative model that learns from basic multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM first introduces collaborative multi-modal coding, which integrates modality-specific features while preserving their unique representational strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to raise the robustness and performance of multi-modal coding. 3) Based on the embedded multi-modal code, TriMM employs a triplane latent diffusion model to generate 3D assets of superior quality, enhancing both the texture and the geometric detail. Extensive experiments on multiple well-known datasets demonstrate that TriMM, by effectively leveraging multi-modality, achieves competitive performance with models trained on large-scale datasets, despite utilizing a small amount of training data. Furthermore, we conduct additional experiments on recent RGB-D datasets, verifying the feasibility of incorporating other multi-modal datasets into 3D generation.

Коллаборативное мультимодальное кодирование для генерации высококачественных 3D-моделей

Collaborative Multi-Modal Coding for High-Quality 3D Generation

Аннотация

Support