SAM4D: Segmentación de Cualquier Objeto en Flujos de Cámara y LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams
June 26, 2025
Autores: Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
cs.AI
Resumen
Presentamos SAM4D, un modelo fundacional multimodal y temporal diseñado para la segmentación mediante indicaciones en flujos de cámara y LiDAR. Se introduce la Codificación de Posición Multimodal Unificada (UMPE, por sus siglas en inglés) para alinear las características de la cámara y el LiDAR en un espacio 3D compartido, permitiendo una interacción y segmentación multimodal sin interrupciones. Además, proponemos la Atención de Memoria Multimodal Consciente del Movimiento (MCMA, por sus siglas en inglés), que aprovecha la compensación del movimiento propio para mejorar la consistencia temporal y la recuperación de características a largo plazo, asegurando una segmentación robusta en escenarios de conducción autónoma dinámicamente cambiantes. Para evitar cuellos de botella en la anotación, desarrollamos un motor de datos automatizado multimodal que combina máscaras de video impulsadas por VFM, reconstrucción espacio-temporal 4D y fusión de máscaras multimodales. Este marco genera pseudoetiquetas alineadas entre cámara y LiDAR a una velocidad órdenes de magnitud más rápida que la anotación humana, preservando la fidelidad semántica derivada de VFM en las representaciones de nubes de puntos. Realizamos experimentos extensivos en el conjunto de datos construido Waymo-4DSeg, los cuales demuestran la potente capacidad de segmentación multimodal y el gran potencial en la anotación de datos del SAM4D propuesto.
English
We present SAM4D, a multi-modal and temporal foundation model designed for
promptable segmentation across camera and LiDAR streams. Unified Multi-modal
Positional Encoding (UMPE) is introduced to align camera and LiDAR features in
a shared 3D space, enabling seamless cross-modal prompting and interaction.
Additionally, we propose Motion-aware Cross-modal Memory Attention (MCMA),
which leverages ego-motion compensation to enhance temporal consistency and
long-horizon feature retrieval, ensuring robust segmentation across dynamically
changing autonomous driving scenes. To avoid annotation bottlenecks, we develop
a multi-modal automated data engine that synergizes VFM-driven video masklets,
spatiotemporal 4D reconstruction, and cross-modal masklet fusion. This
framework generates camera-LiDAR aligned pseudo-labels at a speed orders of
magnitude faster than human annotation while preserving VFM-derived semantic
fidelity in point cloud representations. We conduct extensive experiments on
the constructed Waymo-4DSeg, which demonstrate the powerful cross-modal
segmentation ability and great potential in data annotation of proposed SAM4D.