ChatPaper.aiChatPaper

CrossOver: Allineamento Cross-Modale di Scene 3D

CrossOver: 3D Scene Cross-Modal Alignment

February 20, 2025
Autori: Sayan Deb Sarkar, Ondrej Miksik, Marc Pollefeys, Daniel Barath, Iro Armeni
cs.AI

Abstract

La comprensione multi-modale degli oggetti 3D ha attirato una significativa attenzione, tuttavia gli approcci attuali spesso presuppongono la disponibilità completa dei dati e un allineamento rigido tra tutte le modalità. Presentiamo CrossOver, un nuovo framework per la comprensione cross-modale delle scene 3D tramite un allineamento flessibile delle modalità a livello di scena. A differenza dei metodi tradizionali che richiedono dati allineati per ogni istanza di oggetto, CrossOver apprende uno spazio di embedding unificato e indipendente dalle modalità per le scene, allineando le modalità - immagini RGB, nuvole di punti, modelli CAD, planimetrie e descrizioni testuali - con vincoli rilassati e senza semantica esplicita degli oggetti. Sfruttando encoder specifici per la dimensionalità, una pipeline di addestramento multi-stadio e comportamenti cross-modali emergenti, CrossOver supporta un robusto recupero delle scene e la localizzazione degli oggetti, anche in presenza di modalità mancanti. Le valutazioni sui dataset ScanNet e 3RScan dimostrano le sue prestazioni superiori su diverse metriche, evidenziando l'adattabilità per applicazioni reali nella comprensione delle scene 3D.
English
Multi-modal 3D object understanding has gained significant attention, yet current approaches often assume complete data availability and rigid alignment across all modalities. We present CrossOver, a novel framework for cross-modal 3D scene understanding via flexible, scene-level modality alignment. Unlike traditional methods that require aligned modality data for every object instance, CrossOver learns a unified, modality-agnostic embedding space for scenes by aligning modalities - RGB images, point clouds, CAD models, floorplans, and text descriptions - with relaxed constraints and without explicit object semantics. Leveraging dimensionality-specific encoders, a multi-stage training pipeline, and emergent cross-modal behaviors, CrossOver supports robust scene retrieval and object localization, even with missing modalities. Evaluations on ScanNet and 3RScan datasets show its superior performance across diverse metrics, highlighting adaptability for real-world applications in 3D scene understanding.

Summary

AI-Generated Summary

PDF33February 24, 2025