MobileSAMv2: Segmentación de Cualquier Cosa a Todo Más Rápida
MobileSAMv2: Faster Segment Anything to Everything
December 15, 2023
Autores: Chaoning Zhang, Dongshen Han, Sheng Zheng, Jinwoo Choi, Tae-Ho Kim, Choong Seon Hong
cs.AI
Resumen
El modelo Segment Anything (SAM) aborda dos tareas de segmentación prácticas pero desafiantes: Segment Anything (SegAny), que utiliza un punto específico para predecir la máscara de un único objeto de interés, y Segment Everything (SegEvery), que predice las máscaras de todos los objetos en la imagen. Lo que hace que SegAny sea lento en SAM es su codificador de imágenes de gran tamaño, un problema que MobileSAM ha resuelto mediante la destilación de conocimiento desacoplada. Sin embargo, el cuello de botella en la eficiencia de SegEvery con SAM radica en su decodificador de máscaras, ya que primero necesita generar numerosas máscaras con indicaciones redundantes de búsqueda en cuadrícula y luego realizar un filtrado para obtener las máscaras válidas finales. Proponemos mejorar su eficiencia generando directamente las máscaras finales con solo indicaciones válidas, las cuales pueden obtenerse mediante el descubrimiento de objetos. Nuestro enfoque no solo ayuda a reducir el tiempo total en el decodificador de máscaras al menos 16 veces, sino que también logra un rendimiento superior. Específicamente, nuestro enfoque produce un aumento promedio en el rendimiento del 3.6% (42.5% frente a 38.9%) para la propuesta de objetos zero-shot en el conjunto de datos LVIS con la métrica AR@K de máscaras. Los resultados cualitativos muestran que nuestro enfoque genera máscaras de grano fino mientras evita la sobresegmentación. Este proyecto, que apunta a un SegEvery más rápido que el SAM original, se denomina MobileSAMv2 para diferenciarlo de MobileSAM, que se enfoca en un SegAny más rápido. Además, demostramos que nuestro nuevo muestreo de indicaciones también es compatible con los codificadores de imágenes destilados en MobileSAM, contribuyendo a un marco unificado para un SegAny y SegEvery eficientes. El código está disponible en el mismo enlace que el proyecto MobileSAM: https://github.com/ChaoningZhang/MobileSAM.
English
Segment anything model (SAM) addresses two practical yet challenging
segmentation tasks: segment anything (SegAny), which utilizes a
certain point to predict the mask for a single object of interest, and
segment everything (SegEvery), which predicts the masks for all
objects on the image. What makes SegAny slow for SAM is its heavyweight image
encoder, which has been addressed by MobileSAM via decoupled knowledge
distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in
its mask decoder because it needs to first generate numerous masks with
redundant grid-search prompts and then perform filtering to obtain the final
valid masks. We propose to improve its efficiency by directly generating the
final masks with only valid prompts, which can be obtained through object
discovery. Our proposed approach not only helps reduce the total time on the
mask decoder by at least 16 times but also achieves superior performance.
Specifically, our approach yields an average performance boost of 3.6\% (42.5\%
v.s. 38.9\%) for zero-shot object proposal on the LVIS dataset with
the mask AR@K metric. Qualitative results show that our approach generates
fine-grained masks while avoiding over-segmenting things. This project
targeting faster SegEvery than the original SAM is termed MobileSAMv2 to
differentiate from MobileSAM which targets faster SegAny. Moreover, we
demonstrate that our new prompt sampling is also compatible with the distilled
image encoders in MobileSAM, contributing to a unified framework for efficient
SegAny and SegEvery. The code is available at the same link as MobileSAM
Project
https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}.
abstractSummary
AI-Generated Summary