ChatPaper.aiChatPaper

Kollaborative Multi-Modale Kodierung für hochwertige 3D-Generierung

Collaborative Multi-Modal Coding for High-Quality 3D Generation

August 21, 2025
papers.authors: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI

papers.abstract

3D-Inhalte weisen von Natur aus multimodale Eigenschaften auf und können in verschiedene Modalitäten projiziert werden (z.B. RGB-Bilder, RGBD und Punktwolken). Jede Modalität bietet spezifische Vorteile bei der Modellierung von 3D-Assets: RGB-Bilder enthalten lebendige 3D-Texturen, während Punktwolken fein abgestufte 3D-Geometrien definieren. Die meisten bestehenden 3D-nativen generativen Architekturen operieren jedoch überwiegend in Einzelmodalitäts-Paradigmen – und übersehen damit die komplementären Vorteile multimodaler Daten – oder beschränken sich auf 3D-Strukturen, wodurch der Umfang der verfügbaren Trainingsdatensätze eingeschränkt wird. Um multimodale Daten ganzheitlich für die 3D-Modellierung zu nutzen, stellen wir TriMM vor, das erste feed-forward 3D-native generative Modell, das aus grundlegenden multimodalen Daten (z.B. RGB, RGBD und Punktwolken) lernt. Konkret: 1) TriMM führt zunächst eine kollaborative multimodale Kodierung ein, die modalitätsspezifische Merkmale integriert, während deren einzigartige repräsentative Stärken bewahrt werden. 2) Darüber hinaus werden zusätzliche 2D- und 3D-Supervisionen eingeführt, um die Robustheit und Leistung der multimodalen Kodierung zu steigern. 3) Basierend auf dem eingebetteten multimodalen Code verwendet TriMM ein Triplane-Latent-Diffusionsmodell, um 3D-Assets von höchster Qualität zu generieren, wodurch sowohl die Textur als auch die geometrische Detailgenauigkeit verbessert werden. Umfangreiche Experimente mit mehreren bekannten Datensätzen zeigen, dass TriMM durch die effektive Nutzung multimodaler Daten eine wettbewerbsfähige Leistung mit Modellen erreicht, die auf großen Datensätzen trainiert wurden, obwohl nur eine geringe Menge an Trainingsdaten verwendet wird. Darüber hinaus führen wir zusätzliche Experimente mit aktuellen RGB-D-Datensätzen durch, die die Machbarkeit der Einbindung anderer multimodaler Datensätze in die 3D-Generierung bestätigen.
English
3D content inherently encompasses multi-modal characteristics and can be projected into different modalities (e.g., RGB images, RGBD, and point clouds). Each modality exhibits distinct advantages in 3D asset modeling: RGB images contain vivid 3D textures, whereas point clouds define fine-grained 3D geometries. However, most existing 3D-native generative architectures either operate predominantly within single-modality paradigms-thus overlooking the complementary benefits of multi-modality data-or restrict themselves to 3D structures, thereby limiting the scope of available training datasets. To holistically harness multi-modalities for 3D modeling, we present TriMM, the first feed-forward 3D-native generative model that learns from basic multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM first introduces collaborative multi-modal coding, which integrates modality-specific features while preserving their unique representational strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to raise the robustness and performance of multi-modal coding. 3) Based on the embedded multi-modal code, TriMM employs a triplane latent diffusion model to generate 3D assets of superior quality, enhancing both the texture and the geometric detail. Extensive experiments on multiple well-known datasets demonstrate that TriMM, by effectively leveraging multi-modality, achieves competitive performance with models trained on large-scale datasets, despite utilizing a small amount of training data. Furthermore, we conduct additional experiments on recent RGB-D datasets, verifying the feasibility of incorporating other multi-modal datasets into 3D generation.
PDF32August 29, 2025