SAM3D: Rilevamento 3D di oggetti in modalità zero-shot tramite il Segment Anything Model
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model
June 4, 2023
Autori: Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai
cs.AI
Abstract
Con lo sviluppo dei grandi modelli linguistici, molti sistemi linguistici notevoli come ChatGPT sono fioriti e hanno ottenuto un successo straordinario in numerosi compiti, dimostrando l'incredibile potenza dei modelli di base. Con l'obiettivo di sfruttare le capacità dei modelli di base nei compiti visivi, è stato recentemente proposto il Segment Anything Model (SAM), un modello di base visivo per la segmentazione delle immagini, che mostra una forte capacità zero-shot in molti compiti downstream 2D. Tuttavia, la possibilità di adattare SAM ai compiti di visione 3D deve ancora essere esplorata, in particolare nel rilevamento di oggetti 3D. Con questa ispirazione, in questo articolo esploriamo l'adattamento della capacità zero-shot di SAM al rilevamento di oggetti 3D. Proponiamo una pipeline di elaborazione BEV alimentata da SAM per rilevare oggetti e otteniamo risultati promettenti sul vasto dataset aperto Waymo. Come un primo tentativo, il nostro metodo compie un passo verso il rilevamento di oggetti 3D con modelli di base visivi e presenta l'opportunità di sfruttare il loro potenziale nei compiti di visione 3D. Il codice è rilasciato all'indirizzo https://github.com/DYZhang09/SAM3D.
English
With the development of large language models, many remarkable linguistic
systems like ChatGPT have thrived and achieved astonishing success on many
tasks, showing the incredible power of foundation models. In the spirit of
unleashing the capability of foundation models on vision tasks, the Segment
Anything Model (SAM), a vision foundation model for image segmentation, has
been proposed recently and presents strong zero-shot ability on many downstream
2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be
explored, especially 3D object detection. With this inspiration, we explore
adapting the zero-shot ability of SAM to 3D object detection in this paper. We
propose a SAM-powered BEV processing pipeline to detect objects and get
promising results on the large-scale Waymo open dataset. As an early attempt,
our method takes a step toward 3D object detection with vision foundation
models and presents the opportunity to unleash their power on 3D vision tasks.
The code is released at https://github.com/DYZhang09/SAM3D.