ChatPaper.aiChatPaper

Segmenter n'importe quoi en haute qualité

Segment Anything in High Quality

June 2, 2023
Auteurs: Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
cs.AI

Résumé

Le récent modèle Segment Anything (SAM) représente un bond en avant significatif dans la mise à l'échelle des modèles de segmentation, offrant des capacités zero-shot puissantes et un système de prompts flexible. Bien qu'il ait été entraîné avec 1,1 milliard de masques, la qualité de prédiction des masques de SAM reste insuffisante dans de nombreux cas, en particulier pour les objets présentant des structures complexes. Nous proposons HQ-SAM, dotant SAM de la capacité à segmenter avec précision n'importe quel objet, tout en conservant la conception promptable, l'efficacité et la généralisabilité zero-shot d'origine de SAM. Notre conception minutieuse réutilise et préserve les poids du modèle pré-entraîné de SAM, tout en introduisant un nombre minimal de paramètres et de calculs supplémentaires. Nous concevons un jeton de sortie haute qualité apprenable, qui est injecté dans le décodeur de masques de SAM et est responsable de la prédiction du masque haute qualité. Au lieu de l'appliquer uniquement sur les caractéristiques du décodeur de masques, nous les fusionnons d'abord avec les caractéristiques précoces et finales du ViT pour améliorer les détails du masque. Pour entraîner les paramètres apprenables introduits, nous constituons un ensemble de données de 44 000 masques granulaires provenant de plusieurs sources. HQ-SAM est uniquement entraîné sur cet ensemble de données de 44 000 masques, ce qui ne prend que 4 heures sur 8 GPU. Nous démontrons l'efficacité de HQ-SAM sur une série de 9 ensembles de données de segmentation variés couvrant différentes tâches en aval, dont 7 sont évalués selon un protocole de transfert zero-shot. Notre code et nos modèles seront disponibles à l'adresse https://github.com/SysCV/SAM-HQ.
English
The recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM's original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM's mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation datasets across different downstream tasks, where 7 out of them are evaluated in a zero-shot transfer protocol. Our code and models will be released at https://github.com/SysCV/SAM-HQ.
PDF82December 15, 2024