Segmentazione Rapida di Qualsiasi Cosa
Fast Segment Anything
June 21, 2023
Autori: Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang
cs.AI
Abstract
Il recentemente proposto modello Segment Anything (SAM) ha avuto un impatto significativo in molti compiti di visione artificiale. Sta diventando un passaggio fondamentale per molte attività di alto livello, come la segmentazione delle immagini, la descrizione delle immagini e la modifica delle immagini. Tuttavia, i suoi elevati costi computazionali ne limitano un'applicazione più ampia negli scenari industriali. La computazione deriva principalmente dall'architettura Transformer con input ad alta risoluzione. In questo articolo, proponiamo un metodo alternativo accelerato per questo compito fondamentale, con prestazioni comparabili. Riformulando il compito come generazione di segmenti e prompting, scopriamo che un normale rilevatore CNN con un ramo di segmentazione delle istanze può svolgere bene anche questo compito. Nello specifico, convertiamo questo compito nel ben studiato compito di segmentazione delle istanze e addestriamo direttamente il metodo esistente di segmentazione delle istanze utilizzando solo 1/50 del dataset SA-1B pubblicato dagli autori di SAM. Con il nostro metodo, otteniamo prestazioni comparabili al metodo SAM con una velocità di esecuzione 50 volte superiore. Forniamo risultati sperimentali sufficienti per dimostrarne l'efficacia. I codici e le demo saranno rilasciati su https://github.com/CASIA-IVA-Lab/FastSAM.
English
The recently proposed segment anything model (SAM) has made a significant
influence in many computer vision tasks. It is becoming a foundation step for
many high-level tasks, like image segmentation, image caption, and image
editing. However, its huge computation costs prevent it from wider applications
in industry scenarios. The computation mainly comes from the Transformer
architecture at high-resolution inputs. In this paper, we propose a speed-up
alternative method for this fundamental task with comparable performance. By
reformulating the task as segments-generation and prompting, we find that a
regular CNN detector with an instance segmentation branch can also accomplish
this task well. Specifically, we convert this task to the well-studied instance
segmentation task and directly train the existing instance segmentation method
using only 1/50 of the SA-1B dataset published by SAM authors. With our method,
we achieve a comparable performance with the SAM method at 50 times higher
run-time speed. We give sufficient experimental results to demonstrate its
effectiveness. The codes and demos will be released at
https://github.com/CASIA-IVA-Lab/FastSAM.