SAM2Point: ゼロショットおよびプロンプト可能な方法で3Dをビデオとしてセグメント化
SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners
August 29, 2024
著者: Ziyu Guo, Renrui Zhang, Xiangyang Zhu, Chengzhuo Tong, Peng Gao, Chunyuan Li, Pheng-Ann Heng
cs.AI
要旨
私たちは、Segment Anything Model 2 (SAM 2)をゼロショットおよびプロンプト可能な3Dセグメンテーションに適応させる予備的探求として、SAM2Pointを紹介します。SAM2Pointは、任意の3Dデータを多方向ビデオのシリーズとして解釈し、追加のトレーニングや2D-3D投影なしに、SAM 2を活用して3D空間のセグメンテーションを行います。私たちのフレームワークは、3Dポイント、ボックス、マスクなど、さまざまなプロンプトタイプをサポートし、3Dオブジェクト、室内シーン、屋外環境、生のスパースLiDARなど、多様なシナリオに一般化できます。Objaverse、S3DIS、ScanNet、Semantic3D、KITTIなどの複数の3Dデータセットでのデモンストレーションは、SAM2Pointの堅牢な一般化能力を強調しています。私たちの知る限り、これは3DにおけるSAMの最も忠実な実装であり、プロンプト可能な3Dセグメンテーションの将来の研究の出発点として役立つかもしれません。オンラインデモ: https://huggingface.co/spaces/ZiyuG/SAM2Point . コード: https://github.com/ZiyuGuo99/SAM2Point .
English
We introduce SAM2Point, a preliminary exploration adapting Segment Anything
Model 2 (SAM 2) for zero-shot and promptable 3D segmentation. SAM2Point
interprets any 3D data as a series of multi-directional videos, and leverages
SAM 2 for 3D-space segmentation, without further training or 2D-3D projection.
Our framework supports various prompt types, including 3D points, boxes, and
masks, and can generalize across diverse scenarios, such as 3D objects, indoor
scenes, outdoor environments, and raw sparse LiDAR. Demonstrations on multiple
3D datasets, e.g., Objaverse, S3DIS, ScanNet, Semantic3D, and KITTI, highlight
the robust generalization capabilities of SAM2Point. To our best knowledge, we
present the most faithful implementation of SAM in 3D, which may serve as a
starting point for future research in promptable 3D segmentation. Online Demo:
https://huggingface.co/spaces/ZiyuG/SAM2Point . Code:
https://github.com/ZiyuGuo99/SAM2Point .