ChatPaper.aiChatPaper

MobileSAMv2: Schnellere Segmentierung von allem zu allem

MobileSAMv2: Faster Segment Anything to Everything

December 15, 2023
Autoren: Chaoning Zhang, Dongshen Han, Sheng Zheng, Jinwoo Choi, Tae-Ho Kim, Choong Seon Hong
cs.AI

Zusammenfassung

Das Segment Anything Model (SAM) adressiert zwei praktische, aber herausfordernde Segmentierungsaufgaben: Segment Anything (SegAny), das einen bestimmten Punkt nutzt, um die Maske für ein einzelnes Objekt von Interesse vorherzusagen, und Segment Everything (SegEvery), das die Masken für alle Objekte im Bild vorhersagt. Was SegAny für SAM langsam macht, ist sein schwergewichtiger Bildencoder, der durch MobileSAM mittels entkoppelter Wissensdistillation angegangen wurde. Der Engpass bei der Effizienz von SegEvery mit SAM liegt jedoch in seinem Maskendecoder, da dieser zunächst zahlreiche Masken mit redundanten Grid-Search-Prompts generieren und dann eine Filterung durchführen muss, um die endgültigen gültigen Masken zu erhalten. Wir schlagen vor, seine Effizienz zu verbessern, indem direkt die endgültigen Masken mit nur gültigen Prompts generiert werden, die durch Objektentdeckung gewonnen werden können. Unser vorgeschlagener Ansatz hilft nicht nur, die Gesamtzeit für den Maskendecoder um mindestens das 16-fache zu reduzieren, sondern erzielt auch eine überlegene Leistung. Insbesondere führt unser Ansatz zu einer durchschnittlichen Leistungssteigerung von 3,6 % (42,5 % gegenüber 38,9 %) für Zero-Shot-Objektvorschläge auf dem LVIS-Datensatz mit der Mask AR@K-Metrik. Qualitative Ergebnisse zeigen, dass unser Ansatz feinmaschige Masken erzeugt, während eine Übersegmentierung vermieden wird. Dieses Projekt, das eine schnellere SegEvery als das ursprüngliche SAM anstrebt, wird als MobileSAMv2 bezeichnet, um es von MobileSAM zu unterscheiden, das eine schnellere SegAny zum Ziel hat. Darüber hinaus zeigen wir, dass unser neues Prompt-Sampling auch mit den destillierten Bildencodern in MobileSAM kompatibel ist, was zu einem einheitlichen Framework für effiziente SegAny und SegEvery beiträgt. Der Code ist unter demselben Link wie das MobileSAM-Projekt verfügbar: https://github.com/ChaoningZhang/MobileSAM.
English
Segment anything model (SAM) addresses two practical yet challenging segmentation tasks: segment anything (SegAny), which utilizes a certain point to predict the mask for a single object of interest, and segment everything (SegEvery), which predicts the masks for all objects on the image. What makes SegAny slow for SAM is its heavyweight image encoder, which has been addressed by MobileSAM via decoupled knowledge distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in its mask decoder because it needs to first generate numerous masks with redundant grid-search prompts and then perform filtering to obtain the final valid masks. We propose to improve its efficiency by directly generating the final masks with only valid prompts, which can be obtained through object discovery. Our proposed approach not only helps reduce the total time on the mask decoder by at least 16 times but also achieves superior performance. Specifically, our approach yields an average performance boost of 3.6\% (42.5\% v.s. 38.9\%) for zero-shot object proposal on the LVIS dataset with the mask AR@K metric. Qualitative results show that our approach generates fine-grained masks while avoiding over-segmenting things. This project targeting faster SegEvery than the original SAM is termed MobileSAMv2 to differentiate from MobileSAM which targets faster SegAny. Moreover, we demonstrate that our new prompt sampling is also compatible with the distilled image encoders in MobileSAM, contributing to a unified framework for efficient SegAny and SegEvery. The code is available at the same link as MobileSAM Project https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}. abstract

Summary

AI-Generated Summary

PDF242December 15, 2024