MobileSAMv2: Snellere Segmentatie van Alles naar Alles
MobileSAMv2: Faster Segment Anything to Everything
December 15, 2023
Auteurs: Chaoning Zhang, Dongshen Han, Sheng Zheng, Jinwoo Choi, Tae-Ho Kim, Choong Seon Hong
cs.AI
Samenvatting
Het Segment Anything Model (SAM) richt zich op twee praktische maar uitdagende segmentatietaken: Segment Anything (SegAny), dat een bepaald punt gebruikt om het masker voor een enkel object van interesse te voorspellen, en Segment Everything (SegEvery), dat de maskers voor alle objecten in de afbeelding voorspelt. Wat SegAny traag maakt voor SAM is zijn zware beeldencoder, wat is aangepakt door MobileSAM via ontkoppelde kennisdistillatie. Het efficiëntieknelpunt van SegEvery met SAM ligt echter in zijn maskerdecoder, omdat deze eerst talrijke maskers moet genereren met redundante grid-search prompts en vervolgens filtering moet uitvoeren om de uiteindelijke geldige maskers te verkrijgen. Wij stellen voor om de efficiëntie te verbeteren door direct de uiteindelijke maskers te genereren met alleen geldige prompts, die kunnen worden verkregen via objectdetectie. Onze voorgestelde aanpak helpt niet alleen om de totale tijd op de maskerdecoder met minstens 16 keer te verminderen, maar behaalt ook superieure prestaties. Specifiek levert onze aanpak een gemiddelde prestatieverbetering van 3,6% (42,5% vs. 38,9%) op voor zero-shot objectvoorstel op de LVIS-dataset met de masker AR@K-metric. Kwalitatieve resultaten tonen aan dat onze aanpak fijnmazige maskers genereert terwijl over-segmentatie wordt vermeden. Dit project, dat gericht is op een snellere SegEvery dan de originele SAM, wordt MobileSAMv2 genoemd om het te onderscheiden van MobileSAM, dat gericht is op een snellere SegAny. Bovendien tonen we aan dat onze nieuwe promptsteekproef ook compatibel is met de gedistilleerde beeldencoders in MobileSAM, wat bijdraagt aan een uniform raamwerk voor efficiënte SegAny en SegEvery. De code is beschikbaar op dezelfde link als het MobileSAM-project: https://github.com/ChaoningZhang/MobileSAM.
English
Segment anything model (SAM) addresses two practical yet challenging
segmentation tasks: segment anything (SegAny), which utilizes a
certain point to predict the mask for a single object of interest, and
segment everything (SegEvery), which predicts the masks for all
objects on the image. What makes SegAny slow for SAM is its heavyweight image
encoder, which has been addressed by MobileSAM via decoupled knowledge
distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in
its mask decoder because it needs to first generate numerous masks with
redundant grid-search prompts and then perform filtering to obtain the final
valid masks. We propose to improve its efficiency by directly generating the
final masks with only valid prompts, which can be obtained through object
discovery. Our proposed approach not only helps reduce the total time on the
mask decoder by at least 16 times but also achieves superior performance.
Specifically, our approach yields an average performance boost of 3.6\% (42.5\%
v.s. 38.9\%) for zero-shot object proposal on the LVIS dataset with
the mask AR@K metric. Qualitative results show that our approach generates
fine-grained masks while avoiding over-segmenting things. This project
targeting faster SegEvery than the original SAM is termed MobileSAMv2 to
differentiate from MobileSAM which targets faster SegAny. Moreover, we
demonstrate that our new prompt sampling is also compatible with the distilled
image encoders in MobileSAM, contributing to a unified framework for efficient
SegAny and SegEvery. The code is available at the same link as MobileSAM
Project
https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}.
abstract