SAM4D: Segmentierung von allem in Kamera- und LiDAR-Strömen
SAM4D: Segment Anything in Camera and LiDAR Streams
June 26, 2025
Autoren: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI
Zusammenfassung
Wir präsentieren SAM4D, ein multimodales und temporales Foundation-Modell, das für promptbare Segmentierung über Kamera- und LiDAR-Ströme entwickelt wurde. Die Unified Multi-modal Positional Encoding (UMPE) wird eingeführt, um Kamera- und LiDAR-Features in einem gemeinsamen 3D-Raum auszurichten, was nahtloses cross-modales Prompting und Interaktion ermöglicht. Zusätzlich schlagen wir Motion-aware Cross-modal Memory Attention (MCMA) vor, das Ego-Motion-Kompensation nutzt, um die zeitliche Konsistenz und die Feature-Rückgewinnung über lange Zeiträume zu verbessern, wodurch eine robuste Segmentierung in sich dynamisch verändernden autonomen Fahrszenen gewährleistet wird. Um Annotationsengpässe zu vermeiden, entwickeln wir eine multimodale automatisierte Data Engine, die VFM-gesteuerte Video-Masklets, raumzeitliche 4D-Rekonstruktion und cross-modale Masklet-Fusion kombiniert. Dieser Rahmen erzeugt Kamera-LiDAR-ausgerichtete Pseudo-Labels mit einer Geschwindigkeit, die um Größenordnungen schneller ist als menschliche Annotation, während die semantische Treue der VFM-abgeleiteten Punktwolkenrepräsentationen erhalten bleibt. Wir führen umfangreiche Experimente auf dem konstruierten Waymo-4DSeg durch, die die leistungsstarke cross-modale Segmentierungsfähigkeit und das große Potenzial in der Datenannotation des vorgeschlagenen SAM4D demonstrieren.
English
We present SAM4D, a multi-modal and temporal foundation model designed for
promptable segmentation across camera and LiDAR streams. Unified Multi-modal
Positional Encoding (UMPE) is introduced to align camera and LiDAR features in
a shared 3D space, enabling seamless cross-modal prompting and interaction.
Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA),
which leverages ego-motion compensation to enhance temporal consistency and
long-horizon feature retrieval, ensuring robust segmentation across dynamically
changing autonomous driving scenes. To avoid annotation bottlenecks, we develop
a multi-modal automated data engine that synergizes VFM-driven video masklets,
spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This
framework generates camera-LiDAR aligned pseudo-labels at a speed orders of
magnitude faster than human annotation while preserving VFM-derived semantic
fidelity in point cloud representations. We conduct extensive experiments on
the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal
segmentation ability and great potential in data annotation of proposed SAM4D.