SAM2Point : Segmentation 3D sans entraînement et pilotable par prompts, traitant les données comme des vidéos
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners
August 29, 2024
papers.authors: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng
cs.AI
papers.abstract
Nous présentons SAM2Point, une exploration préliminaire visant à adapter le Segment Anything Model 2 (SAM 2) pour la segmentation 3D sans apprentissage préalable (zero-shot) et pilotable par invites. SAM2Point interprète toute donnée 3D comme une série de vidéos multidirectionnelles et exploite SAM 2 pour la segmentation dans l'espace 3D, sans entraînement supplémentaire ni projection 2D-3D. Notre framework prend en charge divers types d'invites, notamment des points 3D, des boîtes englobantes et des masques, et peut généraliser à divers scénarios, tels que des objets 3D, des scènes intérieures, des environnements extérieurs et des données LiDAR brutes et éparses. Des démonstrations sur plusieurs jeux de données 3D, par exemple Objaverse, S3DIS, ScanNet, Semantic3D et KITTI, mettent en évidence les solides capacités de généralisation de SAM2Point. À notre connaissance, nous présentons l'implémentation la plus fidèle de SAM en 3D, qui pourrait servir de point de départ pour les futures recherches sur la segmentation 3D pilotable par invites. Démonstration en ligne : https://huggingface.co/spaces/ZiyuG/SAM2Point . Code : https://github.com/ZiyuGuo99/SAM2Point .
English
We introduce SAM2Point, a preliminary exploration adapting Segment Anything
Model 2 (SAM 2) for zero-shot and promptable 3D segmentation. SAM2Point
interprets any 3D data as a series of multi-directional videos, and leverages
SAM 2 for 3D-space segmentation, without further training or 2D-3D projection.
Our framework supports various prompt types, including 3D points, boxes, and
masks, and can generalize across diverse scenarios, such as 3D objects, indoor
scenes, outdoor environments, and raw sparse LiDAR. Demonstrations on multiple
3D datasets, e.g., Objaverse, S3DIS, ScanNet, Semantic3D, and KITTI, highlight
the robust generalization capabilities of SAM2Point. To our best knowledge, we
present the most faithful implementation of SAM in 3D, which may serve as a
starting point for future research in promptable 3D segmentation. Online Demo:
https://huggingface.co/spaces/ZiyuG/SAM2Point . Code:
https://github.com/ZiyuGuo99/SAM2Point .