ChatPaper.aiChatPaper

CrossOver: Alinhamento Cross-Modal de Cenas 3D

CrossOver: 3D Scene Cross-Modal Alignment

February 20, 2025
Autores: Sayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni
cs.AI

Resumo

A compreensão multimodal de objetos 3D tem ganhado atenção significativa, mas as abordagens atuais frequentemente assumem a disponibilidade completa de dados e um alinhamento rígido entre todas as modalidades. Apresentamos o CrossOver, uma nova estrutura para a compreensão de cenas 3D multimodal por meio de um alinhamento flexível de modalidades em nível de cena. Diferente dos métodos tradicionais, que exigem dados de modalidades alinhados para cada instância de objeto, o CrossOver aprende um espaço de incorporação unificado e independente de modalidades para cenas, alinhando modalidades — imagens RGB, nuvens de pontos, modelos CAD, plantas baixas e descrições textuais — com restrições relaxadas e sem semântica explícita de objetos. Utilizando codificadores específicos para dimensionalidade, um pipeline de treinamento em múltiplas etapas e comportamentos multimodais emergentes, o CrossOver suporta a recuperação robusta de cenas e a localização de objetos, mesmo com modalidades ausentes. Avaliações nos conjuntos de dados ScanNet e 3RScan demonstram seu desempenho superior em diversas métricas, destacando sua adaptabilidade para aplicações do mundo real na compreensão de cenas 3D.
English
Multi-modal 3D object understanding has gained significant attention, yet current approaches often assume complete data availability and rigid alignment across all modalities. We present CrossOver, a novel framework for cross-modal 3D scene understanding via flexible, scene-level modality alignment. Unlike traditional methods that require aligned modality data for every object instance, CrossOver learns a unified, modality-agnostic embedding space for scenes by aligning modalities - RGB images, point clouds, CAD models, floorplans, and text descriptions - with relaxed constraints and without explicit object semantics. Leveraging dimensionality-specific encoders, a multi-stage training pipeline, and emergent cross-modal behaviors, CrossOver supports robust scene retrieval and object localization, even with missing modalities. Evaluations on ScanNet and 3RScan datasets show its superior performance across diverse metrics, highlighting adaptability for real-world applications in 3D scene understanding.

Summary

AI-Generated Summary

PDF33February 24, 2025