ChatPaper.aiChatPaper

SAM4D: カメラとLiDARストリームにおける任意セグメンテーション

SAM4D: Segment Anything in Camera and LiDAR Streams

June 26, 2025
著者: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI

要旨

本論文では、カメラとLiDARストリームにわたるプロンプト可能なセグメンテーションを実現するためのマルチモーダルかつ時間的な基盤モデルであるSAM4Dを提案する。カメラとLiDARの特徴を共有の3D空間に整合させるために、統一マルチモーダル位置符号化(UMPE)を導入し、シームレスなクロスモーダルプロンプティングとインタラクションを可能にする。さらに、エゴモーション補償を活用して時間的一貫性と長期的な特徴検索を強化するモーション認識クロスモーダルメモリアテンション(MCMA)を提案し、動的に変化する自動運転シーンにおける堅牢なセグメンテーションを保証する。アノテーションのボトルネックを回避するために、VFM駆動のビデオマスクレット、時空間4D再構築、およびクロスモーダルマスクレット融合を統合したマルチモーダル自動データエンジンを開発する。このフレームワークは、人間のアノテーションよりも桁違いに高速でカメラ-LiDAR整合疑似ラベルを生成し、点群表現におけるVFM由来のセマンティックフィデリティを維持する。構築したWaymo-4DSegを用いた広範な実験を行い、提案するSAM4Dの強力なクロスモーダルセグメンテーション能力とデータアノテーションにおける大きな可能性を実証する。
English
We present SAM4D, a multi-modal and temporal foundation model designed for promptable segmentation across camera and LiDAR streams. Unified Multi-modal Positional Encoding (UMPE) is introduced to align camera and LiDAR features in a shared 3D space, enabling seamless cross-modal prompting and interaction. Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA), which leverages ego-motion compensation to enhance temporal consistency and long-horizon feature retrieval, ensuring robust segmentation across dynamically changing autonomous driving scenes. To avoid annotation bottlenecks, we develop a multi-modal automated data engine that synergizes VFM-driven video masklets, spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This framework generates camera-LiDAR aligned pseudo-labels at a speed orders of magnitude faster than human annotation while preserving VFM-derived semantic fidelity in point cloud representations. We conduct extensive experiments on the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal segmentation ability and great potential in data annotation of proposed SAM4D.
PDF121June 27, 2025