SAM3D : Détection d'objets 3D en zero-shot via le modèle Segment Anything
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model
June 4, 2023
Auteurs: Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai
cs.AI
Résumé
Avec le développement des grands modèles de langage, de nombreux systèmes linguistiques remarquables comme ChatGPT ont prospéré et obtenu un succès impressionnant sur de nombreuses tâches, démontrant la puissance incroyable des modèles de base. Dans l'optique d'exploiter les capacités de ces modèles de base pour les tâches de vision, le Segment Anything Model (SAM), un modèle de base pour la segmentation d'images, a été récemment proposé et présente une forte capacité de généralisation en zero-shot sur de nombreuses tâches 2D en aval. Cependant, la possibilité d'adapter SAM aux tâches de vision 3D reste à explorer, en particulier pour la détection d'objets 3D. Inspirés par cette idée, nous explorons dans cet article l'adaptation de la capacité de généralisation en zero-shot de SAM à la détection d'objets 3D. Nous proposons un pipeline de traitement BEV alimenté par SAM pour détecter des objets et obtenons des résultats prometteurs sur le vaste jeu de données ouvert Waymo. En tant que tentative précoce, notre méthode fait un pas vers la détection d'objets 3D avec des modèles de base de vision et ouvre la voie à l'exploitation de leur puissance pour les tâches de vision 3D. Le code est disponible à l'adresse suivante : https://github.com/DYZhang09/SAM3D.
English
With the development of large language models, many remarkable linguistic
systems like ChatGPT have thrived and achieved astonishing success on many
tasks, showing the incredible power of foundation models. In the spirit of
unleashing the capability of foundation models on vision tasks, the Segment
Anything Model (SAM), a vision foundation model for image segmentation, has
been proposed recently and presents strong zero-shot ability on many downstream
2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be
explored, especially 3D object detection. With this inspiration, we explore
adapting the zero-shot ability of SAM to 3D object detection in this paper. We
propose a SAM-powered BEV processing pipeline to detect objects and get
promising results on the large-scale Waymo open dataset. As an early attempt,
our method takes a step toward 3D object detection with vision foundation
models and presents the opportunity to unleash their power on 3D vision tasks.
The code is released at https://github.com/DYZhang09/SAM3D.