TinySAM: Expandindo os Limites para um Modelo Eficiente de Segmentação de Qualquer Coisa

Resumo

Recentemente, o modelo Segment Anything (SAM) demonstrou uma poderosa capacidade de segmentação e atraiu grande atenção no campo da visão computacional. Numerosos trabalhos subsequentes desenvolveram diversas aplicações baseadas no SAM pré-treinado e alcançaram desempenho impressionante em tarefas de visão subsequentes. No entanto, o SAM consiste em arquiteturas pesadas e requer uma capacidade computacional massiva, o que dificulta a aplicação adicional do SAM em dispositivos de borda com restrições de computação. Para isso, neste artigo, propomos uma estrutura para obter um modelo Tiny Segment Anything (TinySAM) enquanto mantemos o forte desempenho zero-shot. Primeiramente, propomos um método de destilação de conhecimento em estágio completo com uma estratégia de amostragem de prompts difíceis online para destilar um modelo estudante leve. Também adaptamos a quantização pós-treinamento para a tarefa de segmentação acionável e reduzimos ainda mais o custo computacional. Além disso, uma estratégia hierárquica de segmentação de tudo é proposta para acelerar a inferência de tudo em 2 vezes com quase nenhuma degradação de desempenho. Com todos esses métodos propostos, nosso TinySAM resulta em uma redução computacional de ordens de magnitude e amplia os limites para a tarefa eficiente de segmentação de qualquer coisa. Experimentos extensivos em várias tarefas de transferência zero-shot demonstram o desempenho significativamente vantajoso do nosso TinySAM em comparação com métodos concorrentes. Modelos pré-treinados e códigos estarão disponíveis em https://github.com/xinghaochen/TinySAM e https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.

English

Recently segment anything model (SAM) has shown powerful segmentation capability and has drawn great attention in computer vision fields. Massive following works have developed various applications based on the pretrained SAM and achieved impressive performance on downstream vision tasks. However, SAM consists of heavy architectures and requires massive computational capacity, which hinders the further application of SAM on computation constrained edge devices. To this end, in this paper we propose a framework to obtain a tiny segment anything model (TinySAM) while maintaining the strong zero-shot performance. We first propose a full-stage knowledge distillation method with online hard prompt sampling strategy to distill a lightweight student model. We also adapt the post-training quantization to the promptable segmentation task and further reduce the computational cost. Moreover, a hierarchical segmenting everything strategy is proposed to accelerate the everything inference by 2times with almost no performance degradation. With all these proposed methods, our TinySAM leads to orders of magnitude computational reduction and pushes the envelope for efficient segment anything task. Extensive experiments on various zero-shot transfer tasks demonstrate the significantly advantageous performance of our TinySAM against counterpart methods. Pre-trained models and codes will be available at https://github.com/xinghaochen/TinySAM and https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.

TinySAM: Expandindo os Limites para um Modelo Eficiente de Segmentação de Qualquer Coisa

TinySAM: Pushing the Envelope for Efficient Segment Anything Model

Resumo

Support