ChatPaper.aiChatPaper

SAM4D: Segmentar Qualquer Coisa em Fluxos de Câmera e LiDAR

SAM4D: Segment Anything in Camera and LiDAR Streams

June 26, 2025
Autores: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI

Resumo

Apresentamos o SAM4D, um modelo de base multimodal e temporal projetado para segmentação acionável por prompts em fluxos de câmera e LiDAR. Introduzimos o Codificação de Posição Multimodal Unificada (UMPE) para alinhar características de câmera e LiDAR em um espaço 3D compartilhado, permitindo interação e acionamento cruzado de modalidades de forma contínua. Além disso, propomos a Atenção de Memória Cruzada com Consciência de Movimento (MCMA), que aproveita a compensação de ego-movimento para aprimorar a consistência temporal e a recuperação de características de longo horizonte, garantindo segmentação robusta em cenas de direção autônoma dinamicamente alteradas. Para evitar gargalos de anotação, desenvolvemos um mecanismo de dados automatizado multimodal que sinergiza máscaras de vídeo orientadas por VFM, reconstrução espaço-temporal 4D e fusão de máscaras cruzadas. Essa estrutura gera pseudo-labels alinhadas entre câmera e LiDAR a uma velocidade ordens de magnitude maior do que a anotação humana, preservando a fidelidade semântica derivada de VFM em representações de nuvem de pontos. Realizamos extensos experimentos no conjunto Waymo-4DSeg construído, que demonstram a poderosa capacidade de segmentação cruzada e o grande potencial em anotação de dados do SAM4D proposto.
English
We present SAM4D, a multi-modal and temporal foundation model designed for promptable segmentation across camera and LiDAR streams. Unified Multi-modal Positional Encoding (UMPE) is introduced to align camera and LiDAR features in a shared 3D space, enabling seamless cross-modal prompting and interaction. Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA), which leverages ego-motion compensation to enhance temporal consistency and long-horizon feature retrieval, ensuring robust segmentation across dynamically changing autonomous driving scenes. To avoid annotation bottlenecks, we develop a multi-modal automated data engine that synergizes VFM-driven video masklets, spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This framework generates camera-LiDAR aligned pseudo-labels at a speed orders of magnitude faster than human annotation while preserving VFM-derived semantic fidelity in point cloud representations. We conduct extensive experiments on the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal segmentation ability and great potential in data annotation of proposed SAM4D.
PDF151June 27, 2025