MobileSAMv2 : Segmentation universelle accélérée pour tous les cas d'usage

papers.abstract

Le modèle Segment Anything (SAM) aborde deux tâches de segmentation pratiques mais complexes : Segment Anything (SegAny), qui utilise un point spécifique pour prédire le masque d'un seul objet d'intérêt, et Segment Everything (SegEvery), qui prédit les masques de tous les objets présents dans l'image. Ce qui rend SegAny lent pour SAM est son encodeur d'image lourd, un problème résolu par MobileSAM via une distillation de connaissances découplée. Cependant, le goulot d'étranglement en termes d'efficacité pour SegEvery avec SAM réside dans son décodeur de masques, car il doit d'abord générer de nombreux masques avec des invites de recherche en grille redondantes, puis effectuer un filtrage pour obtenir les masques valides finaux. Nous proposons d'améliorer son efficacité en générant directement les masques finaux avec uniquement des invites valides, qui peuvent être obtenues via la découverte d'objets. Notre approche proposée permet non seulement de réduire le temps total sur le décodeur de masques d'au moins 16 fois, mais elle atteint également des performances supérieures. Plus précisément, notre approche offre une amélioration moyenne de 3,6 % (42,5 % contre 38,9 %) pour la proposition d'objets zero-shot sur le jeu de données LVIS avec la métrique AR@K des masques. Les résultats qualitatifs montrent que notre approche génère des masques à granularité fine tout en évitant la sur-segmentation. Ce projet visant un SegEvery plus rapide que le SAM original est nommé MobileSAMv2 pour le différencier de MobileSAM qui cible un SegAny plus rapide. De plus, nous démontrons que notre nouvel échantillonnage d'invites est également compatible avec les encodeurs d'image distillés dans MobileSAM, contribuant à un cadre unifié pour un SegAny et SegEvery efficaces. Le code est disponible au même lien que le projet MobileSAM : https://github.com/ChaoningZhang/MobileSAM.

English

Segment anything model (SAM) addresses two practical yet challenging segmentation tasks: segment anything (SegAny), which utilizes a certain point to predict the mask for a single object of interest, and segment everything (SegEvery), which predicts the masks for all objects on the image. What makes SegAny slow for SAM is its heavyweight image encoder, which has been addressed by MobileSAM via decoupled knowledge distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in its mask decoder because it needs to first generate numerous masks with redundant grid-search prompts and then perform filtering to obtain the final valid masks. We propose to improve its efficiency by directly generating the final masks with only valid prompts, which can be obtained through object discovery. Our proposed approach not only helps reduce the total time on the mask decoder by at least 16 times but also achieves superior performance. Specifically, our approach yields an average performance boost of 3.6\% (42.5\% v.s. 38.9\%) for zero-shot object proposal on the LVIS dataset with the mask AR@K metric. Qualitative results show that our approach generates fine-grained masks while avoiding over-segmenting things. This project targeting faster SegEvery than the original SAM is termed MobileSAMv2 to differentiate from MobileSAM which targets faster SegAny. Moreover, we demonstrate that our new prompt sampling is also compatible with the distilled image encoders in MobileSAM, contributing to a unified framework for efficient SegAny and SegEvery. The code is available at the same link as MobileSAM Project https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}. abstract

MobileSAMv2 : Segmentation universelle accélérée pour tous les cas d'usage

MobileSAMv2: Faster Segment Anything to Everything

papers.abstract

Support