ChatPaper.aiChatPaper

Быстрое Сегментирование Любого Объекта

Fast Segment Anything

June 21, 2023
Авторы: Xu Zhao, Wenchao Ding, Yongqi An, Yinglong Du, Tao Yu, Min Li, Ming Tang, Jinqiao Wang
cs.AI

Аннотация

Недавно предложенная модель Segment Anything (SAM) оказала значительное влияние на многие задачи компьютерного зрения. Она становится основополагающим шагом для многих высокоуровневых задач, таких как сегментация изображений, генерация подписей к изображениям и редактирование изображений. Однако её высокие вычислительные затраты ограничивают её широкое применение в промышленных сценариях. Основные вычисления связаны с архитектурой Transformer при работе с высоким разрешением входных данных. В данной статье мы предлагаем альтернативный метод ускорения для этой фундаментальной задачи с сопоставимой производительностью. Переформулировав задачу как генерацию сегментов и использование подсказок, мы обнаружили, что обычный детектор на основе CNN с ветвью для сегментации экземпляров также может успешно справляться с этой задачей. В частности, мы преобразуем эту задачу в хорошо изученную задачу сегментации экземпляров и обучаем существующий метод сегментации экземпляров, используя только 1/50 набора данных SA-1B, опубликованного авторами SAM. С помощью нашего метода мы достигаем сопоставимой с SAM производительности при 50-кратном увеличении скорости выполнения. Мы предоставляем достаточные экспериментальные результаты, демонстрирующие эффективность нашего подхода. Коды и демонстрации будут доступны по адресу https://github.com/CASIA-IVA-Lab/FastSAM.
English
The recently proposed segment anything model (SAM) has made a significant influence in many computer vision tasks. It is becoming a foundation step for many high-level tasks, like image segmentation, image caption, and image editing. However, its huge computation costs prevent it from wider applications in industry scenarios. The computation mainly comes from the Transformer architecture at high-resolution inputs. In this paper, we propose a speed-up alternative method for this fundamental task with comparable performance. By reformulating the task as segments-generation and prompting, we find that a regular CNN detector with an instance segmentation branch can also accomplish this task well. Specifically, we convert this task to the well-studied instance segmentation task and directly train the existing instance segmentation method using only 1/50 of the SA-1B dataset published by SAM authors. With our method, we achieve a comparable performance with the SAM method at 50 times higher run-time speed. We give sufficient experimental results to demonstrate its effectiveness. The codes and demos will be released at https://github.com/CASIA-IVA-Lab/FastSAM.
PDF343December 15, 2024