MobileSAMv2: Быстрый сегментатор для всего и вся
MobileSAMv2: Faster Segment Anything to Everything
December 15, 2023
Авторы: Chaoning Zhang, Dongshen Han, Sheng Zheng, Jinwoo Choi, Tae-Ho Kim, Choong Seon Hong
cs.AI
Аннотация
Модель Segment Anything Model (SAM) решает две практические, но сложные задачи сегментации: сегментация любого объекта (SegAny), которая использует определённую точку для предсказания маски одного интересующего объекта, и сегментация всех объектов (SegEvery), которая предсказывает маски для всех объектов на изображении. Что делает SegAny медленной для SAM, так это её тяжёлый кодировщик изображений, что было решено в MobileSAM с помощью разделённого дистилляции знаний. Однако узким местом в эффективности SegEvery для SAM является декодер масок, поскольку ему сначала необходимо сгенерировать множество масок с избыточными запросами методом сеточного поиска, а затем выполнить фильтрацию для получения окончательных валидных масок. Мы предлагаем улучшить её эффективность, напрямую генерируя финальные маски только с валидными запросами, которые могут быть получены через обнаружение объектов. Наш подход не только помогает сократить общее время работы декодера масок как минимум в 16 раз, но и обеспечивает превосходную производительность. В частности, наш подход даёт средний прирост производительности на 3.6\% (42.5\% против 38.9\%) для задачи zero-shot предложения объектов на наборе данных LVIS с метрикой mask AR@K. Качественные результаты показывают, что наш подход генерирует детализированные маски, избегая избыточной сегментации объектов. Этот проект, направленный на ускорение SegEvery по сравнению с оригинальной SAM, назван MobileSAMv2, чтобы отличать его от MobileSAM, который нацелен на ускорение SegAny. Более того, мы демонстрируем, что наш новый метод выборки запросов также совместим с дистиллированными кодировщиками изображений в MobileSAM, что способствует созданию унифицированной структуры для эффективных SegAny и SegEvery. Код доступен по той же ссылке, что и проект MobileSAM: https://github.com/ChaoningZhang/MobileSAM.
English
Segment anything model (SAM) addresses two practical yet challenging
segmentation tasks: segment anything (SegAny), which utilizes a
certain point to predict the mask for a single object of interest, and
segment everything (SegEvery), which predicts the masks for all
objects on the image. What makes SegAny slow for SAM is its heavyweight image
encoder, which has been addressed by MobileSAM via decoupled knowledge
distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in
its mask decoder because it needs to first generate numerous masks with
redundant grid-search prompts and then perform filtering to obtain the final
valid masks. We propose to improve its efficiency by directly generating the
final masks with only valid prompts, which can be obtained through object
discovery. Our proposed approach not only helps reduce the total time on the
mask decoder by at least 16 times but also achieves superior performance.
Specifically, our approach yields an average performance boost of 3.6\% (42.5\%
v.s. 38.9\%) for zero-shot object proposal on the LVIS dataset with
the mask AR@K metric. Qualitative results show that our approach generates
fine-grained masks while avoiding over-segmenting things. This project
targeting faster SegEvery than the original SAM is termed MobileSAMv2 to
differentiate from MobileSAM which targets faster SegAny. Moreover, we
demonstrate that our new prompt sampling is also compatible with the distilled
image encoders in MobileSAM, contributing to a unified framework for efficient
SegAny and SegEvery. The code is available at the same link as MobileSAM
Project
https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}.
abstractSummary
AI-Generated Summary