SAM3D: Zero-Shot 3D Object Detectie via het Segment Anything Model

Samenvatting

Met de ontwikkeling van grote taalmodelen zijn veel opmerkelijke linguïstische systemen zoals ChatGPT tot bloei gekomen en hebben ze verbazingwekkend succes geboekt op veel taken, wat de ongelooflijke kracht van foundationmodellen aantoont. In de geest van het benutten van de mogelijkheden van foundationmodellen voor visuele taken, is het Segment Anything Model (SAM), een vision foundationmodel voor beeldsegmentatie, recentelijk voorgesteld en toont het sterke zero-shot-vaardigheden op veel downstream 2D-taken. Echter, of SAM kan worden aangepast aan 3D-visuele taken moet nog worden onderzocht, met name 3D-objectdetectie. Geïnspireerd door dit idee, onderzoeken we in dit artikel het aanpassen van de zero-shot-vaardigheid van SAM aan 3D-objectdetectie. We stellen een SAM-gestuurde BEV-verwerkingspijplijn voor om objecten te detecteren en behalen veelbelovende resultaten op de grootschalige Waymo open dataset. Als een vroege poging zet onze methode een stap in de richting van 3D-objectdetectie met vision foundationmodellen en biedt het de mogelijkheid om hun kracht te benutten voor 3D-visuele taken. De code is vrijgegeven op https://github.com/DYZhang09/SAM3D.

English

With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.

SAM3D: Zero-Shot 3D Object Detectie via het Segment Anything Model

SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Samenvatting

Support