고품질 세그멘테이션
Segment Anything in High Quality
June 2, 2023
저자: Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
cs.AI
초록
최근 등장한 Segment Anything Model(SAM)은 세그멘테이션 모델의 규모를 크게 확장시켜 강력한 제로샷(zero-shot) 능력과 유연한 프롬프팅 기능을 가능하게 했습니다. 그러나 11억 개의 마스크로 학습된 SAM의 마스크 예측 품질은 복잡한 구조를 가진 객체를 다룰 때 특히 부족한 경우가 많습니다. 우리는 HQ-SAM을 제안하여 SAM이 모든 객체를 정확하게 세그먼트할 수 있는 능력을 갖추면서도, SAM의 기존 프롬프트 가능한 설계, 효율성, 제로샷 일반화 능력을 유지하도록 했습니다. 우리의 신중한 설계는 SAM의 사전 학습된 모델 가중치를 재사용하고 보존하면서, 최소한의 추가 매개변수와 계산만을 도입했습니다. 우리는 학습 가능한 고품질 출력 토큰(High-Quality Output Token)을 설계하여 이를 SAM의 마스크 디코더에 주입하고, 고품질 마스크를 예측하도록 했습니다. 이를 마스크 디코더 특징에만 적용하는 대신, 먼저 초기 및 최종 ViT 특징과 융합하여 마스크 세부 사항을 개선했습니다. 도입된 학습 가능한 매개변수를 학습하기 위해, 여러 출처에서 44,000개의 세밀한 마스크로 구성된 데이터셋을 구축했습니다. HQ-SAM은 44,000개의 마스크로 구성된 이 데이터셋에서만 학습되며, 8개의 GPU에서 단 4시간이 소요됩니다. 우리는 다양한 다운스트림 작업을 위한 9개의 세그멘테이션 데이터셋에서 HQ-SAM의 효능을 보여주며, 이 중 7개는 제로샷 전이 프로토콜로 평가되었습니다. 우리의 코드와 모델은 https://github.com/SysCV/SAM-HQ에서 공개될 예정입니다.
English
The recent Segment Anything Model (SAM) represents a big leap in scaling up
segmentation models, allowing for powerful zero-shot capabilities and flexible
prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction
quality falls short in many cases, particularly when dealing with objects that
have intricate structures. We propose HQ-SAM, equipping SAM with the ability to
accurately segment any object, while maintaining SAM's original promptable
design, efficiency, and zero-shot generalizability. Our careful design reuses
and preserves the pre-trained model weights of SAM, while only introducing
minimal additional parameters and computation. We design a learnable
High-Quality Output Token, which is injected into SAM's mask decoder and is
responsible for predicting the high-quality mask. Instead of only applying it
on mask-decoder features, we first fuse them with early and final ViT features
for improved mask details. To train our introduced learnable parameters, we
compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is
only trained on the introduced detaset of 44k masks, which takes only 4 hours
on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation
datasets across different downstream tasks, where 7 out of them are evaluated
in a zero-shot transfer protocol. Our code and models will be released at
https://github.com/SysCV/SAM-HQ.