ChatPaper.aiChatPaper

SAM4D: 카메라와 LiDAR 스트림에서의 모든 세그멘테이션

SAM4D: Segment Anything in Camera and LiDAR Streams

June 26, 2025
저자: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI

초록

카메라와 LiDAR 스트림 간 프롬프트 가능한 세그멘테이션을 위해 설계된 다중 모달 및 시간적 파운데이션 모델인 SAM4D를 소개합니다. 통합 다중 모달 위치 인코딩(UMPE)을 도입하여 카메라와 LiDAR 특징을 공유된 3D 공간에서 정렬함으로써 원활한 크로스 모달 프롬프팅과 상호작용을 가능하게 합니다. 또한, 동적 자율 주행 장면에서 강력한 세그멘테이션을 보장하기 위해 자체 모션 보상을 활용하여 시간적 일관성과 장기적 특징 검색을 강화하는 모션 인식 크로스 모달 메모리 어텐션(MCMA)을 제안합니다. 주석 병목 현상을 피하기 위해 VFM 기반 비디오 마스클릿, 시공간적 4D 재구성, 그리고 크로스 모달 마스클릿 융합을 시너지적으로 결합한 다중 모달 자동 데이터 엔진을 개발했습니다. 이 프레임워크는 인간 주석보다 수 배 빠른 속도로 카메라-LiDAR 정렬된 의사 레이블을 생성하면서도 포인트 클라우드 표현에서 VFM 기반의 의미적 충실도를 유지합니다. 구축된 Waymo-4DSeg에서 광범위한 실험을 수행하여 제안된 SAM4D의 강력한 크로스 모달 세그멘테이션 능력과 데이터 주석에서의 큰 잠재력을 입증했습니다.
English
We present SAM4D, a multi-modal and temporal foundation model designed for promptable segmentation across camera and LiDAR streams. Unified Multi-modal Positional Encoding (UMPE) is introduced to align camera and LiDAR features in a shared 3D space, enabling seamless cross-modal prompting and interaction. Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA), which leverages ego-motion compensation to enhance temporal consistency and long-horizon feature retrieval, ensuring robust segmentation across dynamically changing autonomous driving scenes. To avoid annotation bottlenecks, we develop a multi-modal automated data engine that synergizes VFM-driven video masklets, spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This framework generates camera-LiDAR aligned pseudo-labels at a speed orders of magnitude faster than human annotation while preserving VFM-derived semantic fidelity in point cloud representations. We conduct extensive experiments on the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal segmentation ability and great potential in data annotation of proposed SAM4D.
PDF121June 27, 2025