MobileSAMv2 : Segmentation universelle accélérée pour tous les cas d'usage
MobileSAMv2: Faster Segment Anything to Everything
December 15, 2023
Auteurs: Chaoning Zhang, Dongshen Han, Sheng Zheng, Jinwoo Choi, Tae-Ho Kim, Choong Seon Hong
cs.AI
Résumé
Le modèle Segment Anything (SAM) aborde deux tâches de segmentation pratiques mais complexes : Segment Anything (SegAny), qui utilise un point spécifique pour prédire le masque d'un seul objet d'intérêt, et Segment Everything (SegEvery), qui prédit les masques de tous les objets présents dans l'image. Ce qui rend SegAny lent pour SAM est son encodeur d'image lourd, un problème résolu par MobileSAM via une distillation de connaissances découplée. Cependant, le goulot d'étranglement en termes d'efficacité pour SegEvery avec SAM réside dans son décodeur de masques, car il doit d'abord générer de nombreux masques avec des invites de recherche en grille redondantes, puis effectuer un filtrage pour obtenir les masques valides finaux. Nous proposons d'améliorer son efficacité en générant directement les masques finaux avec uniquement des invites valides, qui peuvent être obtenues via la découverte d'objets. Notre approche proposée permet non seulement de réduire le temps total sur le décodeur de masques d'au moins 16 fois, mais elle atteint également des performances supérieures. Plus précisément, notre approche offre une amélioration moyenne de 3,6 % (42,5 % contre 38,9 %) pour la proposition d'objets zero-shot sur le jeu de données LVIS avec la métrique AR@K des masques. Les résultats qualitatifs montrent que notre approche génère des masques à granularité fine tout en évitant la sur-segmentation. Ce projet visant un SegEvery plus rapide que le SAM original est nommé MobileSAMv2 pour le différencier de MobileSAM qui cible un SegAny plus rapide. De plus, nous démontrons que notre nouvel échantillonnage d'invites est également compatible avec les encodeurs d'image distillés dans MobileSAM, contribuant à un cadre unifié pour un SegAny et SegEvery efficaces. Le code est disponible au même lien que le projet MobileSAM : https://github.com/ChaoningZhang/MobileSAM.
English
Segment anything model (SAM) addresses two practical yet challenging
segmentation tasks: segment anything (SegAny), which utilizes a
certain point to predict the mask for a single object of interest, and
segment everything (SegEvery), which predicts the masks for all
objects on the image. What makes SegAny slow for SAM is its heavyweight image
encoder, which has been addressed by MobileSAM via decoupled knowledge
distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in
its mask decoder because it needs to first generate numerous masks with
redundant grid-search prompts and then perform filtering to obtain the final
valid masks. We propose to improve its efficiency by directly generating the
final masks with only valid prompts, which can be obtained through object
discovery. Our proposed approach not only helps reduce the total time on the
mask decoder by at least 16 times but also achieves superior performance.
Specifically, our approach yields an average performance boost of 3.6\% (42.5\%
v.s. 38.9\%) for zero-shot object proposal on the LVIS dataset with
the mask AR@K metric. Qualitative results show that our approach generates
fine-grained masks while avoiding over-segmenting things. This project
targeting faster SegEvery than the original SAM is termed MobileSAMv2 to
differentiate from MobileSAM which targets faster SegAny. Moreover, we
demonstrate that our new prompt sampling is also compatible with the distilled
image encoders in MobileSAM, contributing to a unified framework for efficient
SegAny and SegEvery. The code is available at the same link as MobileSAM
Project
https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}.
abstractSummary
AI-Generated Summary