ChatPaper.aiChatPaper

SAM3D: Обнаружение 3D-объектов с нулевым обучением с использованием модели Segment Anything

SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

June 4, 2023
Авторы: Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai
cs.AI

Аннотация

С развитием крупных языковых моделей многие впечатляющие лингвистические системы, такие как ChatGPT, получили широкое распространение и достигли удивительных успехов в решении множества задач, демонстрируя невероятную мощь базовых моделей. В духе раскрытия потенциала базовых моделей для задач компьютерного зрения недавно была предложена модель Segment Anything Model (SAM) — базовая модель для сегментации изображений, которая демонстрирует сильные способности к нулевому обучению (zero-shot) на множестве двумерных задач. Однако вопрос о том, можно ли адаптировать SAM к задачам трехмерного зрения, особенно к задаче обнаружения 3D объектов, остается неисследованным. Вдохновленные этой идеей, в данной работе мы исследуем адаптацию нулевого обучения SAM к задаче обнаружения 3D объектов. Мы предлагаем конвейер обработки данных в представлении "вид сверху" (BEV), основанный на SAM, для обнаружения объектов и получаем обнадеживающие результаты на крупном наборе данных Waymo Open Dataset. Как ранняя попытка, наш метод делает шаг в направлении обнаружения 3D объектов с использованием базовых моделей компьютерного зрения и открывает возможности для раскрытия их потенциала в задачах трехмерного зрения. Код доступен по адресу https://github.com/DYZhang09/SAM3D.
English
With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.
PDF20December 15, 2024