SAM4D: Segmentazione di Oggetti in Flussi di Dati da Fotocamera e LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams
June 26, 2025
Autori: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI
Abstract
Presentiamo SAM4D, un modello fondazionale multi-modale e temporale progettato per la segmentazione promptabile su flussi di dati provenienti da telecamere e LiDAR. Introduciamo l'Unified Multi-modal Positional Encoding (UMPE) per allineare le caratteristiche di telecamera e LiDAR in uno spazio 3D condiviso, consentendo un'interazione e un prompting cross-modale senza soluzione di continuità. Inoltre, proponiamo il Motion-aware Cross-modal Memory Attention (MCMA), che sfrutta la compensazione del moto ego per migliorare la coerenza temporale e il recupero di caratteristiche a lungo termine, garantendo una segmentazione robusta in scenari di guida autonoma in continua evoluzione. Per evitare colli di bottiglia nell'annotazione, sviluppiamo un motore di dati automatizzato multi-modale che sinergizza video masklet guidati da VFM, ricostruzione spaziotemporale 4D e fusione cross-modale di masklet. Questo framework genera pseudo-etichette allineate tra telecamera e LiDAR a una velocità di ordini di grandezza superiore rispetto all'annotazione umana, preservando la fedeltà semantica derivata da VFM nelle rappresentazioni di point cloud. Condividiamo esperimenti estesi su Waymo-4DSeg, che dimostrano la potente capacità di segmentazione cross-modale e il grande potenziale nell'annotazione dati di SAM4D.
English
We present SAM4D, a multi-modal and temporal foundation model designed for
promptable segmentation across camera and LiDAR streams. Unified Multi-modal
Positional Encoding (UMPE) is introduced to align camera and LiDAR features in
a shared 3D space, enabling seamless cross-modal prompting and interaction.
Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA),
which leverages ego-motion compensation to enhance temporal consistency and
long-horizon feature retrieval, ensuring robust segmentation across dynamically
changing autonomous driving scenes. To avoid annotation bottlenecks, we develop
a multi-modal automated data engine that synergizes VFM-driven video masklets,
spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This
framework generates camera-LiDAR aligned pseudo-labels at a speed orders of
magnitude faster than human annotation while preserving VFM-derived semantic
fidelity in point cloud representations. We conduct extensive experiments on
the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal
segmentation ability and great potential in data annotation of proposed SAM4D.