TinySAM: Expandindo os Limites para um Modelo Eficiente de Segmentação de Qualquer Coisa
TinySAM: Pushing the Envelope for Efficient Segment Anything Model
December 21, 2023
Autores: Han Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen
cs.AI
Resumo
Recentemente, o modelo Segment Anything (SAM) demonstrou uma poderosa capacidade de segmentação e atraiu grande atenção no campo da visão computacional. Numerosos trabalhos subsequentes desenvolveram diversas aplicações baseadas no SAM pré-treinado e alcançaram desempenho impressionante em tarefas de visão subsequentes. No entanto, o SAM consiste em arquiteturas pesadas e requer uma capacidade computacional massiva, o que dificulta a aplicação adicional do SAM em dispositivos de borda com restrições de computação. Para isso, neste artigo, propomos uma estrutura para obter um modelo Tiny Segment Anything (TinySAM) enquanto mantemos o forte desempenho zero-shot. Primeiramente, propomos um método de destilação de conhecimento em estágio completo com uma estratégia de amostragem de prompts difíceis online para destilar um modelo estudante leve. Também adaptamos a quantização pós-treinamento para a tarefa de segmentação acionável e reduzimos ainda mais o custo computacional. Além disso, uma estratégia hierárquica de segmentação de tudo é proposta para acelerar a inferência de tudo em 2 vezes com quase nenhuma degradação de desempenho. Com todos esses métodos propostos, nosso TinySAM resulta em uma redução computacional de ordens de magnitude e amplia os limites para a tarefa eficiente de segmentação de qualquer coisa. Experimentos extensivos em várias tarefas de transferência zero-shot demonstram o desempenho significativamente vantajoso do nosso TinySAM em comparação com métodos concorrentes. Modelos pré-treinados e códigos estarão disponíveis em https://github.com/xinghaochen/TinySAM e https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
English
Recently segment anything model (SAM) has shown powerful segmentation
capability and has drawn great attention in computer vision fields. Massive
following works have developed various applications based on the pretrained SAM
and achieved impressive performance on downstream vision tasks. However, SAM
consists of heavy architectures and requires massive computational capacity,
which hinders the further application of SAM on computation constrained edge
devices. To this end, in this paper we propose a framework to obtain a tiny
segment anything model (TinySAM) while maintaining the strong zero-shot
performance. We first propose a full-stage knowledge distillation method with
online hard prompt sampling strategy to distill a lightweight student model. We
also adapt the post-training quantization to the promptable segmentation task
and further reduce the computational cost. Moreover, a hierarchical segmenting
everything strategy is proposed to accelerate the everything inference by
2times with almost no performance degradation. With all these proposed
methods, our TinySAM leads to orders of magnitude computational reduction and
pushes the envelope for efficient segment anything task. Extensive experiments
on various zero-shot transfer tasks demonstrate the significantly advantageous
performance of our TinySAM against counterpart methods. Pre-trained models and
codes will be available at https://github.com/xinghaochen/TinySAM and
https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.