高速セグメントエニシング
Fast Segment Anything
June 21, 2023
著者: Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang
cs.AI
要旨
最近提案されたSegment Anything Model(SAM)は、多くのコンピュータビジョンタスクに大きな影響を与えています。これは、画像セグメンテーション、画像キャプション、画像編集などの多くの高レベルタスクの基盤ステップとなりつつあります。しかし、その膨大な計算コストが、産業シナリオでの広範な応用を妨げています。この計算コストは主に、高解像度入力におけるTransformerアーキテクチャに起因しています。本論文では、同等の性能を維持しつつ、この基盤タスクを高速化する代替手法を提案します。タスクをセグメント生成とプロンプティングとして再定式化することで、通常のCNN検出器にインスタンスセグメンテーションブランチを追加するだけで、このタスクを十分に達成できることがわかりました。具体的には、このタスクを既に研究されているインスタンスセグメンテーションタスクに変換し、SAMの作者が公開したSA-1Bデータセットの1/50のみを使用して既存のインスタンスセグメンテーション手法を直接学習させます。提案手法により、SAM手法と同等の性能を50倍の実行速度で達成しました。その有効性を示す十分な実験結果を提供します。コードとデモはhttps://github.com/CASIA-IVA-Lab/FastSAMで公開予定です。
English
The recently proposed segment anything model (SAM) has made a significant
influence in many computer vision tasks. It is becoming a foundation step for
many high-level tasks, like image segmentation, image caption, and image
editing. However, its huge computation costs prevent it from wider applications
in industry scenarios. The computation mainly comes from the Transformer
architecture at high-resolution inputs. In this paper, we propose a speed-up
alternative method for this fundamental task with comparable performance. By
reformulating the task as segments-generation and prompting, we find that a
regular CNN detector with an instance segmentation branch can also accomplish
this task well. Specifically, we convert this task to the well-studied instance
segmentation task and directly train the existing instance segmentation method
using only 1/50 of the SA-1B dataset published by SAM authors. With our method,
we achieve a comparable performance with the SAM method at 50 times higher
run-time speed. We give sufficient experimental results to demonstrate its
effectiveness. The codes and demos will be released at
https://github.com/CASIA-IVA-Lab/FastSAM.