SAM4D : Segmentation de tout élément dans les flux caméra et LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams
June 26, 2025
Auteurs: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI
Résumé
Nous présentons SAM4D, un modèle fondateur multimodal et temporel conçu pour la segmentation à la demande à travers les flux de caméra et de LiDAR. L'Encodage Positionnel Multimodal Unifié (UMPE) est introduit pour aligner les caractéristiques de la caméra et du LiDAR dans un espace 3D partagé, permettant une incitation et une interaction intermodales fluides. De plus, nous proposons l'Attention Mémoire Intermodale Sensible au Mouvement (MCMA), qui exploite la compensation du mouvement propre pour améliorer la cohérence temporelle et la récupération de caractéristiques à long terme, assurant une segmentation robuste dans des scènes de conduite autonome en évolution dynamique. Pour éviter les goulots d'étranglement liés à l'annotation, nous développons un moteur de données automatisé multimodal qui combine des masquelets vidéo pilotés par VFM, une reconstruction spatiotemporelle 4D, et une fusion intermodale de masquelets. Ce cadre génère des pseudo-étiquettes alignées caméra-LiDAR à une vitesse plusieurs ordres de grandeur plus rapide que l'annotation humaine, tout en préservant la fidélité sémantique dérivée de VFM dans les représentations de nuages de points. Nous menons des expériences approfondies sur le jeu de données Waymo-4DSeg construit, qui démontrent la puissante capacité de segmentation intermodale et le grand potentiel en annotation de données de SAM4D proposé.
English
We present SAM4D, a multi-modal and temporal foundation model designed for
promptable segmentation across camera and LiDAR streams. Unified Multi-modal
Positional Encoding (UMPE) is introduced to align camera and LiDAR features in
a shared 3D space, enabling seamless cross-modal prompting and interaction.
Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA),
which leverages ego-motion compensation to enhance temporal consistency and
long-horizon feature retrieval, ensuring robust segmentation across dynamically
changing autonomous driving scenes. To avoid annotation bottlenecks, we develop
a multi-modal automated data engine that synergizes VFM-driven video masklets,
spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This
framework generates camera-LiDAR aligned pseudo-labels at a speed orders of
magnitude faster than human annotation while preserving VFM-derived semantic
fidelity in point cloud representations. We conduct extensive experiments on
the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal
segmentation ability and great potential in data annotation of proposed SAM4D.