Segment Anything Rapide

papers.abstract

Le modèle récemment proposé Segment Anything Model (SAM) a eu un impact significatif sur de nombreuses tâches de vision par ordinateur. Il devient une étape fondamentale pour de nombreuses tâches de haut niveau, telles que la segmentation d'images, la génération de légendes d'images et l'édition d'images. Cependant, ses coûts de calcul élevés limitent son application à grande échelle dans des scénarios industriels. Ces coûts de calcul proviennent principalement de l'architecture Transformer avec des entrées à haute résolution. Dans cet article, nous proposons une méthode alternative accélérée pour cette tâche fondamentale, offrant des performances comparables. En reformulant la tâche en termes de génération de segments et d'invites, nous constatons qu'un détecteur CNN standard avec une branche de segmentation par instance peut également accomplir cette tâche de manière efficace. Plus précisément, nous transformons cette tâche en une tâche de segmentation par instance bien étudiée et entraînons directement une méthode de segmentation par instance existante en utilisant seulement 1/50 du jeu de données SA-1B publié par les auteurs de SAM. Avec notre méthode, nous obtenons des performances comparables à celles de SAM avec une vitesse d'exécution 50 fois supérieure. Nous fournissons des résultats expérimentaux suffisants pour démontrer son efficacité. Les codes et démonstrations seront disponibles sur https://github.com/CASIA-IVA-Lab/FastSAM.

English

The recently proposed segment anything model (SAM) has made a significant influence in many computer vision tasks. It is becoming a foundation step for many high-level tasks, like image segmentation, image caption, and image editing. However, its huge computation costs prevent it from wider applications in industry scenarios. The computation mainly comes from the Transformer architecture at high-resolution inputs. In this paper, we propose a speed-up alternative method for this fundamental task with comparable performance. By reformulating the task as segments-generation and prompting, we find that a regular CNN detector with an instance segmentation branch can also accomplish this task well. Specifically, we convert this task to the well-studied instance segmentation task and directly train the existing instance segmentation method using only 1/50 of the SA-1B dataset published by SAM authors. With our method, we achieve a comparable performance with the SAM method at 50 times higher run-time speed. We give sufficient experimental results to demonstrate its effectiveness. The codes and demos will be released at https://github.com/CASIA-IVA-Lab/FastSAM.

Segment Anything Rapide

Fast Segment Anything

papers.abstract

Support