TinySAM: De Grens Verleggen voor een Efficiënt Segment Anything Model
TinySAM: Pushing the Envelope for Efficient Segment Anything Model
December 21, 2023
Auteurs: Han Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen
cs.AI
Samenvatting
Onlangs heeft het Segment Anything Model (SAM) krachtige segmentatiecapaciteiten getoond en grote aandacht getrokken in het veld van computervisie. Talrijke vervolgwerken hebben diverse toepassingen ontwikkeld op basis van het vooraf getrainde SAM en indrukwekkende prestaties behaald bij downstream visietaken. Echter, SAM bestaat uit zware architecturen en vereist enorme rekenkracht, wat de verdere toepassing van SAM op rekenkrachtig beperkte edge-apparaten belemmert. Daarom stellen we in dit artikel een framework voor om een klein Segment Anything Model (TinySAM) te verkrijgen, terwijl de sterke zero-shot prestaties behouden blijven. We introduceren eerst een full-stage knowledge distillation methode met een online hard prompt sampling strategie om een lichtgewicht studentmodel te distilleren. We passen ook de post-training kwantisatie aan aan de promptable segmentatietaak en verminderen verder de rekenkosten. Bovendien wordt een hiërarchische segmenting everything strategie voorgesteld om de everything inferentie te versnellen met een factor 2, bijna zonder prestatieverlies. Met al deze voorgestelde methoden leidt onze TinySAM tot een orde van grootte reductie in rekenkracht en verlegt het de grenzen voor efficiënte Segment Anything taken. Uitgebreide experimenten op diverse zero-shot transfer taken demonstreren de significante prestatievoordelen van onze TinySAM ten opzichte van tegenhanger methoden. Vooraf getrainde modellen en codes zullen beschikbaar zijn op https://github.com/xinghaochen/TinySAM en https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
English
Recently segment anything model (SAM) has shown powerful segmentation
capability and has drawn great attention in computer vision fields. Massive
following works have developed various applications based on the pretrained SAM
and achieved impressive performance on downstream vision tasks. However, SAM
consists of heavy architectures and requires massive computational capacity,
which hinders the further application of SAM on computation constrained edge
devices. To this end, in this paper we propose a framework to obtain a tiny
segment anything model (TinySAM) while maintaining the strong zero-shot
performance. We first propose a full-stage knowledge distillation method with
online hard prompt sampling strategy to distill a lightweight student model. We
also adapt the post-training quantization to the promptable segmentation task
and further reduce the computational cost. Moreover, a hierarchical segmenting
everything strategy is proposed to accelerate the everything inference by
2times with almost no performance degradation. With all these proposed
methods, our TinySAM leads to orders of magnitude computational reduction and
pushes the envelope for efficient segment anything task. Extensive experiments
on various zero-shot transfer tasks demonstrate the significantly advantageous
performance of our TinySAM against counterpart methods. Pre-trained models and
codes will be available at https://github.com/xinghaochen/TinySAM and
https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.