SAM2Point: Segmentação de Qualquer Ponto 3D como Vídeos de Maneira Livre de Treinamento Prévio e Acionável por Prompts
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners
August 29, 2024
Autores: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng
cs.AI
Resumo
Apresentamos o SAM2Point, uma exploração preliminar que adapta o Segment Anything Model 2 (SAM 2) para segmentação 3D *zero-shot* e acionável por *prompts*. O SAM2Point interpreta qualquer dado 3D como uma série de vídeos multidirecionais e aproveita o SAM 2 para segmentação no espaço 3D, sem treinamento adicional ou projeção 2D-3D. Nossa estrutura suporta vários tipos de *prompts*, incluindo pontos 3D, caixas delimitadoras e máscaras, e pode generalizar para diversos cenários, como objetos 3D, cenas internas, ambientes externos e LiDAR esparso bruto. Demonstrações em múltiplos conjuntos de dados 3D, por exemplo, Objaverse, S3DIS, ScanNet, Semantic3D e KITTI, destacam as robustas capacidades de generalização do SAM2Point. Até onde sabemos, apresentamos a implementação mais fiel do SAM em 3D, que pode servir como ponto de partida para pesquisas futuras em segmentação 3D acionável por *prompts*. Demonstração Online: https://huggingface.co/spaces/ZiyuG/SAM2Point . Código: https://github.com/ZiyuGuo99/SAM2Point .
English
We introduce SAM2Point, a preliminary exploration adapting Segment Anything
Model 2 (SAM 2) for zero-shot and promptable 3D segmentation. SAM2Point
interprets any 3D data as a series of multi-directional videos, and leverages
SAM 2 for 3D-space segmentation, without further training or 2D-3D projection.
Our framework supports various prompt types, including 3D points, boxes, and
masks, and can generalize across diverse scenarios, such as 3D objects, indoor
scenes, outdoor environments, and raw sparse LiDAR. Demonstrations on multiple
3D datasets, e.g., Objaverse, S3DIS, ScanNet, Semantic3D, and KITTI, highlight
the robust generalization capabilities of SAM2Point. To our best knowledge, we
present the most faithful implementation of SAM in 3D, which may serve as a
starting point for future research in promptable 3D segmentation. Online Demo:
https://huggingface.co/spaces/ZiyuG/SAM2Point . Code:
https://github.com/ZiyuGuo99/SAM2Point .