ChatPaper.aiChatPaper

Segmentar Cualquier Cosa en Alta Calidad

Segment Anything in High Quality

June 2, 2023
Autores: Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
cs.AI

Resumen

El reciente Segment Anything Model (SAM) representa un gran avance en la escalabilidad de modelos de segmentación, permitiendo capacidades de zero-shot potentes y un sistema de indicaciones flexible. A pesar de haber sido entrenado con 1.100 millones de máscaras, la calidad de predicción de máscaras de SAM se queda corta en muchos casos, especialmente al tratar con objetos que tienen estructuras intrincadas. Proponemos HQ-SAM, dotando a SAM de la capacidad de segmentar cualquier objeto con precisión, manteniendo el diseño indicable original de SAM, su eficiencia y su generalización zero-shot. Nuestro diseño cuidadoso reutiliza y preserva los pesos preentrenados del modelo SAM, introduciendo solo parámetros y cálculos adicionales mínimos. Diseñamos un Token de Salida de Alta Calidad entrenable, que se inyecta en el decodificador de máscaras de SAM y es responsable de predecir la máscara de alta calidad. En lugar de aplicarlo solo en las características del decodificador de máscaras, primero las fusionamos con características tempranas y finales de ViT para mejorar los detalles de la máscara. Para entrenar los parámetros entrenables introducidos, compilamos un conjunto de datos de 44.000 máscaras de grano fino de varias fuentes. HQ-SAM solo se entrena en el conjunto de datos introducido de 44.000 máscaras, lo que toma solo 4 horas en 8 GPUs. Mostramos la eficacia de HQ-SAM en un conjunto de 9 diversos conjuntos de datos de segmentación en diferentes tareas posteriores, donde 7 de ellos se evalúan en un protocolo de transferencia zero-shot. Nuestro código y modelos se publicarán en https://github.com/SysCV/SAM-HQ.
English
The recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM's original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM's mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation datasets across different downstream tasks, where 7 out of them are evaluated in a zero-shot transfer protocol. Our code and models will be released at https://github.com/SysCV/SAM-HQ.
PDF82December 15, 2024