ChatPaper.aiChatPaper

Segmentação Rápida de Qualquer Coisa

Fast Segment Anything

June 21, 2023
Autores: Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang
cs.AI

Resumo

O recentemente proposto modelo Segment Anything (SAM) causou um impacto significativo em diversas tarefas de visão computacional. Está se tornando uma etapa fundamental para muitas tarefas de alto nível, como segmentação de imagens, legendagem de imagens e edição de imagens. No entanto, seus altos custos computacionais impedem sua aplicação mais ampla em cenários industriais. A computação vem principalmente da arquitetura Transformer em entradas de alta resolução. Neste artigo, propomos um método alternativo acelerado para essa tarefa fundamental com desempenho comparável. Ao reformular a tarefa como geração de segmentos e prompting, descobrimos que um detector CNN regular com um ramo de segmentação de instâncias também pode realizar bem essa tarefa. Especificamente, convertemos essa tarefa para a bem estudada tarefa de segmentação de instâncias e treinamos diretamente o método existente de segmentação de instâncias usando apenas 1/50 do conjunto de dados SA-1B publicado pelos autores do SAM. Com nosso método, alcançamos um desempenho comparável ao método SAM com uma velocidade de execução 50 vezes maior. Apresentamos resultados experimentais suficientes para demonstrar sua eficácia. Os códigos e demonstrações serão liberados em https://github.com/CASIA-IVA-Lab/FastSAM.
English
The recently proposed segment anything model (SAM) has made a significant influence in many computer vision tasks. It is becoming a foundation step for many high-level tasks, like image segmentation, image caption, and image editing. However, its huge computation costs prevent it from wider applications in industry scenarios. The computation mainly comes from the Transformer architecture at high-resolution inputs. In this paper, we propose a speed-up alternative method for this fundamental task with comparable performance. By reformulating the task as segments-generation and prompting, we find that a regular CNN detector with an instance segmentation branch can also accomplish this task well. Specifically, we convert this task to the well-studied instance segmentation task and directly train the existing instance segmentation method using only 1/50 of the SA-1B dataset published by SAM authors. With our method, we achieve a comparable performance with the SAM method at 50 times higher run-time speed. We give sufficient experimental results to demonstrate its effectiveness. The codes and demos will be released at https://github.com/CASIA-IVA-Lab/FastSAM.
PDF353December 15, 2024