ChatPaper.aiChatPaper

SAM4D: Сегментация любых объектов в потоках данных камеры и LiDAR

SAM4D: Segment Anything in Camera and LiDAR Streams

June 26, 2025
Авторы: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI

Аннотация

Мы представляем SAM4D — мультимодальную и временную базовую модель, предназначенную для сегментации по запросу в потоках данных с камер и лидаров. Введено Унифицированное Мультимодальное Позиционное Кодирование (UMPE), которое выравнивает признаки камер и лидаров в общем 3D-пространстве, обеспечивая плавное кросс-модальное взаимодействие и запросы. Кроме того, мы предлагаем Внимание с Учетом Движения в Кросс-Модальной Памяти (MCMA), которое использует компенсацию эго-движения для улучшения временной согласованности и извлечения долгосрочных признаков, гарантируя надежную сегментацию в динамически изменяющихся сценах автономного вождения. Чтобы избежать узких мест в аннотировании, мы разработали мультимодальный автоматизированный механизм обработки данных, который объединяет видеомаски, созданные с помощью VFM, пространственно-временную 4D-реконструкцию и кросс-модальное слияние масок. Этот фреймворк генерирует псевдо-метки, согласованные между камерой и лидаром, со скоростью, на порядки превышающей скорость ручного аннотирования, сохраняя при этом семантическую точность, полученную из VFM, в представлениях облаков точек. Мы проводим обширные эксперименты на созданном наборе данных Waymo-4DSeg, которые демонстрируют мощные кросс-модальные способности сегментации и большой потенциал SAM4D в области аннотирования данных.
English
We present SAM4D, a multi-modal and temporal foundation model designed for promptable segmentation across camera and LiDAR streams. Unified Multi-modal Positional Encoding (UMPE) is introduced to align camera and LiDAR features in a shared 3D space, enabling seamless cross-modal prompting and interaction. Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA), which leverages ego-motion compensation to enhance temporal consistency and long-horizon feature retrieval, ensuring robust segmentation across dynamically changing autonomous driving scenes. To avoid annotation bottlenecks, we develop a multi-modal automated data engine that synergizes VFM-driven video masklets, spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This framework generates camera-LiDAR aligned pseudo-labels at a speed orders of magnitude faster than human annotation while preserving VFM-derived semantic fidelity in point cloud representations. We conduct extensive experiments on the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal segmentation ability and great potential in data annotation of proposed SAM4D.
PDF121June 27, 2025