CrossOver: Alinhamento Cross-Modal de Cenas 3D
CrossOver: 3D Scene Cross-Modal Alignment
February 20, 2025
Autores: Sayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni
cs.AI
Resumo
A compreensão multimodal de objetos 3D tem ganhado atenção significativa, mas as abordagens atuais frequentemente assumem a disponibilidade completa de dados e um alinhamento rígido entre todas as modalidades. Apresentamos o CrossOver, uma nova estrutura para a compreensão de cenas 3D multimodal por meio de um alinhamento flexível de modalidades em nível de cena. Diferente dos métodos tradicionais, que exigem dados de modalidades alinhados para cada instância de objeto, o CrossOver aprende um espaço de incorporação unificado e independente de modalidades para cenas, alinhando modalidades — imagens RGB, nuvens de pontos, modelos CAD, plantas baixas e descrições textuais — com restrições relaxadas e sem semântica explícita de objetos. Utilizando codificadores específicos para dimensionalidade, um pipeline de treinamento em múltiplas etapas e comportamentos multimodais emergentes, o CrossOver suporta a recuperação robusta de cenas e a localização de objetos, mesmo com modalidades ausentes. Avaliações nos conjuntos de dados ScanNet e 3RScan demonstram seu desempenho superior em diversas métricas, destacando sua adaptabilidade para aplicações do mundo real na compreensão de cenas 3D.
English
Multi-modal 3D object understanding has gained significant attention, yet
current approaches often assume complete data availability and rigid alignment
across all modalities. We present CrossOver, a novel framework for cross-modal
3D scene understanding via flexible, scene-level modality alignment. Unlike
traditional methods that require aligned modality data for every object
instance, CrossOver learns a unified, modality-agnostic embedding space for
scenes by aligning modalities - RGB images, point clouds, CAD models,
floorplans, and text descriptions - with relaxed constraints and without
explicit object semantics. Leveraging dimensionality-specific encoders, a
multi-stage training pipeline, and emergent cross-modal behaviors, CrossOver
supports robust scene retrieval and object localization, even with missing
modalities. Evaluations on ScanNet and 3RScan datasets show its superior
performance across diverse metrics, highlighting adaptability for real-world
applications in 3D scene understanding.Summary
AI-Generated Summary