SAM3D: Detecção de Objetos 3D em Zero-Shot via Segment Anything Model
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model
June 4, 2023
Autores: Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai
cs.AI
Resumo
Com o desenvolvimento de grandes modelos de linguagem, muitos sistemas linguísticos notáveis, como o ChatGPT, prosperaram e alcançaram sucesso impressionante em diversas tarefas, demonstrando o incrível poder dos modelos de base. No espírito de liberar a capacidade dos modelos de base em tarefas visuais, o Segment Anything Model (SAM), um modelo de base para segmentação de imagens, foi proposto recentemente e apresenta uma forte capacidade de generalização zero-shot em muitas tarefas 2D subsequentes. No entanto, ainda não foi explorado se o SAM pode ser adaptado para tarefas de visão 3D, especialmente a detecção de objetos 3D. Com essa inspiração, exploramos a adaptação da capacidade zero-shot do SAM para a detecção de objetos 3D neste artigo. Propomos um pipeline de processamento BEV (visão de cima para baixo) alimentado pelo SAM para detectar objetos e obtemos resultados promissores no grande conjunto de dados aberto Waymo. Como uma tentativa inicial, nosso método dá um passo em direção à detecção de objetos 3D com modelos de base visuais e apresenta a oportunidade de liberar seu poder em tarefas de visão 3D. O código foi disponibilizado em https://github.com/DYZhang09/SAM3D.
English
With the development of large language models, many remarkable linguistic
systems like ChatGPT have thrived and achieved astonishing success on many
tasks, showing the incredible power of foundation models. In the spirit of
unleashing the capability of foundation models on vision tasks, the Segment
Anything Model (SAM), a vision foundation model for image segmentation, has
been proposed recently and presents strong zero-shot ability on many downstream
2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be
explored, especially 3D object detection. With this inspiration, we explore
adapting the zero-shot ability of SAM to 3D object detection in this paper. We
propose a SAM-powered BEV processing pipeline to detect objects and get
promising results on the large-scale Waymo open dataset. As an early attempt,
our method takes a step toward 3D object detection with vision foundation
models and presents the opportunity to unleash their power on 3D vision tasks.
The code is released at https://github.com/DYZhang09/SAM3D.