SAM3D: Zero-Shot 3D Object Detectie via het Segment Anything Model
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model
June 4, 2023
Auteurs: Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai
cs.AI
Samenvatting
Met de ontwikkeling van grote taalmodelen zijn veel opmerkelijke linguïstische systemen zoals ChatGPT tot bloei gekomen en hebben ze verbazingwekkend succes geboekt op veel taken, wat de ongelooflijke kracht van foundationmodellen aantoont. In de geest van het benutten van de mogelijkheden van foundationmodellen voor visuele taken, is het Segment Anything Model (SAM), een vision foundationmodel voor beeldsegmentatie, recentelijk voorgesteld en toont het sterke zero-shot-vaardigheden op veel downstream 2D-taken. Echter, of SAM kan worden aangepast aan 3D-visuele taken moet nog worden onderzocht, met name 3D-objectdetectie. Geïnspireerd door dit idee, onderzoeken we in dit artikel het aanpassen van de zero-shot-vaardigheid van SAM aan 3D-objectdetectie. We stellen een SAM-gestuurde BEV-verwerkingspijplijn voor om objecten te detecteren en behalen veelbelovende resultaten op de grootschalige Waymo open dataset. Als een vroege poging zet onze methode een stap in de richting van 3D-objectdetectie met vision foundationmodellen en biedt het de mogelijkheid om hun kracht te benutten voor 3D-visuele taken. De code is vrijgegeven op https://github.com/DYZhang09/SAM3D.
English
With the development of large language models, many remarkable linguistic
systems like ChatGPT have thrived and achieved astonishing success on many
tasks, showing the incredible power of foundation models. In the spirit of
unleashing the capability of foundation models on vision tasks, the Segment
Anything Model (SAM), a vision foundation model for image segmentation, has
been proposed recently and presents strong zero-shot ability on many downstream
2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be
explored, especially 3D object detection. With this inspiration, we explore
adapting the zero-shot ability of SAM to 3D object detection in this paper. We
propose a SAM-powered BEV processing pipeline to detect objects and get
promising results on the large-scale Waymo open dataset. As an early attempt,
our method takes a step toward 3D object detection with vision foundation
models and presents the opportunity to unleash their power on 3D vision tasks.
The code is released at https://github.com/DYZhang09/SAM3D.