SAM3D: Null-Shot-3D-Objekterkennung mittels Segment Anything Model

Zusammenfassung

Mit der Entwicklung großer Sprachmodelle haben viele bemerkenswerte linguistische Systeme wie ChatGPT einen Aufschwung erlebt und erstaunliche Erfolge bei zahlreichen Aufgaben erzielt, was die unglaubliche Leistungsfähigkeit von Foundation-Modellen unterstreicht. Im Geiste der Nutzbarmachung der Fähigkeiten von Foundation-Modellen für visuelle Aufgaben wurde kürzlich das Segment Anything Model (SAM), ein Foundation-Modell für die Bildsegmentierung, vorgeschlagen, das eine starke Zero-Shot-Fähigkeit bei vielen nachgelagerten 2D-Aufgaben zeigt. Ob SAM jedoch für 3D-Vision-Aufgaben, insbesondere für die 3D-Objekterkennung, adaptiert werden kann, ist noch nicht erforscht. Inspiriert von dieser Frage untersuchen wir in diesem Artikel die Anpassung der Zero-Shot-Fähigkeit von SAM für die 3D-Objekterkennung. Wir schlagen eine SAM-basierte BEV-Verarbeitungspipeline vor, um Objekte zu erkennen, und erzielen vielversprechende Ergebnisse auf dem groß angelegten Waymo Open Dataset. Als früher Versuch macht unsere Methode einen Schritt in Richtung 3D-Objekterkennung mit visuellen Foundation-Modellen und zeigt die Möglichkeit auf, deren Potenzial für 3D-Vision-Aufgaben zu erschließen. Der Code ist unter https://github.com/DYZhang09/SAM3D verfügbar.

English

With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.

SAM3D: Null-Shot-3D-Objekterkennung mittels Segment Anything Model

SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Zusammenfassung

Support