SAM3D: Detecção de Objetos 3D em Zero-Shot via Segment Anything Model

Resumo

Com o desenvolvimento de grandes modelos de linguagem, muitos sistemas linguísticos notáveis, como o ChatGPT, prosperaram e alcançaram sucesso impressionante em diversas tarefas, demonstrando o incrível poder dos modelos de base. No espírito de liberar a capacidade dos modelos de base em tarefas visuais, o Segment Anything Model (SAM), um modelo de base para segmentação de imagens, foi proposto recentemente e apresenta uma forte capacidade de generalização zero-shot em muitas tarefas 2D subsequentes. No entanto, ainda não foi explorado se o SAM pode ser adaptado para tarefas de visão 3D, especialmente a detecção de objetos 3D. Com essa inspiração, exploramos a adaptação da capacidade zero-shot do SAM para a detecção de objetos 3D neste artigo. Propomos um pipeline de processamento BEV (visão de cima para baixo) alimentado pelo SAM para detectar objetos e obtemos resultados promissores no grande conjunto de dados aberto Waymo. Como uma tentativa inicial, nosso método dá um passo em direção à detecção de objetos 3D com modelos de base visuais e apresenta a oportunidade de liberar seu poder em tarefas de visão 3D. O código foi disponibilizado em https://github.com/DYZhang09/SAM3D.

English

With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.

SAM3D: Detecção de Objetos 3D em Zero-Shot via Segment Anything Model

SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Resumo

Support