ChatPaper.aiChatPaper

SAM3D: Detección de objetos 3D sin entrenamiento previo mediante el modelo Segment Anything

SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

June 4, 2023
Autores: Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai
cs.AI

Resumen

Con el desarrollo de los modelos de lenguaje de gran escala, muchos sistemas lingüísticos destacados como ChatGPT han prosperado y logrado un éxito asombroso en numerosas tareas, demostrando el increíble poder de los modelos base. Con el espíritu de aprovechar la capacidad de los modelos base en tareas de visión, recientemente se ha propuesto el Segment Anything Model (SAM), un modelo base de visión para la segmentación de imágenes, que presenta una fuerte capacidad de zero-shot en muchas tareas 2D posteriores. Sin embargo, aún no se ha explorado si SAM puede adaptarse a tareas de visión 3D, especialmente en la detección de objetos 3D. Con esta inspiración, en este artículo exploramos la adaptación de la capacidad de zero-shot de SAM a la detección de objetos 3D. Proponemos una pipeline de procesamiento BEV impulsada por SAM para detectar objetos y obtenemos resultados prometedores en el conjunto de datos abierto a gran escala de Waymo. Como un intento inicial, nuestro método da un paso hacia la detección de objetos 3D con modelos base de visión y presenta la oportunidad de aprovechar su poder en tareas de visión 3D. El código se ha publicado en https://github.com/DYZhang09/SAM3D.
English
With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.
PDF20December 15, 2024