SAM2Point: Segmentar cualquier 3D como videos de manera zero-shot y con capacidad de prompt
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners
August 29, 2024
Autores: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng
cs.AI
Resumen
Presentamos SAM2Point, una exploración preliminar que adapta el Segment Anything Model 2 (SAM 2) para la segmentación 3D sin entrenamiento previo (zero-shot) y basada en indicaciones (promptable). SAM2Point interpreta cualquier dato 3D como una serie de videos multidireccionales y aprovecha SAM 2 para la segmentación en el espacio 3D, sin necesidad de entrenamiento adicional ni proyección 2D-3D. Nuestro marco admite varios tipos de indicaciones, incluyendo puntos 3D, cajas y máscaras, y puede generalizarse en diversos escenarios, como objetos 3D, escenas interiores, entornos exteriores y datos LiDAR dispersos sin procesar. Las demostraciones en múltiples conjuntos de datos 3D, como Objaverse, S3DIS, ScanNet, Semantic3D y KITTI, destacan las sólidas capacidades de generalización de SAM2Point. Hasta donde sabemos, presentamos la implementación más fiel de SAM en 3D, que podría servir como punto de partida para futuras investigaciones en segmentación 3D basada en indicaciones. Demo en línea: https://huggingface.co/spaces/ZiyuG/SAM2Point . Código: https://github.com/ZiyuGuo99/SAM2Point .
English
We introduce SAM2Point, a preliminary exploration adapting Segment Anything
Model 2 (SAM 2) for zero-shot and promptable 3D segmentation. SAM2Point
interprets any 3D data as a series of multi-directional videos, and leverages
SAM 2 for 3D-space segmentation, without further training or 2D-3D projection.
Our framework supports various prompt types, including 3D points, boxes, and
masks, and can generalize across diverse scenarios, such as 3D objects, indoor
scenes, outdoor environments, and raw sparse LiDAR. Demonstrations on multiple
3D datasets, e.g., Objaverse, S3DIS, ScanNet, Semantic3D, and KITTI, highlight
the robust generalization capabilities of SAM2Point. To our best knowledge, we
present the most faithful implementation of SAM in 3D, which may serve as a
starting point for future research in promptable 3D segmentation. Online Demo:
https://huggingface.co/spaces/ZiyuG/SAM2Point . Code:
https://github.com/ZiyuGuo99/SAM2Point .