Segmentieren von allem in hoher Qualität
Segment Anything in High Quality
June 2, 2023
Autoren: Lei Ke, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
cs.AI
Zusammenfassung
Das kürzlich vorgestellte Segment Anything Model (SAM) stellt einen großen Fortschritt bei der Skalierung von Segmentierungsmodellen dar und ermöglicht leistungsstarke Zero-Shot-Fähigkeiten sowie flexible Prompting. Obwohl SAM mit 1,1 Milliarden Masken trainiert wurde, bleibt die Qualität der Maskenvorhersage in vielen Fällen hinter den Erwartungen zurück, insbesondere bei Objekten mit komplexen Strukturen. Wir schlagen HQ-SAM vor, das SAM die Fähigkeit verleiht, jedes Objekt präzise zu segmentieren, während das ursprüngliche promptfähige Design, die Effizienz und die Zero-Shot-Generalisierbarkeit von SAM beibehalten werden. Unser sorgfältiges Design nutzt und bewahrt die vortrainierten Modellgewichte von SAM, während nur minimale zusätzliche Parameter und Berechnungen eingeführt werden. Wir entwerfen einen lernbaren High-Quality Output Token, der in den Maskendecoder von SAM injiziert wird und für die Vorhersage der hochwertigen Maske verantwortlich ist. Anstatt ihn nur auf die Merkmale des Maskendecoders anzuwenden, fusionieren wir diese zunächst mit frühen und finalen ViT-Merkmalen, um die Maskendetails zu verbessern. Um unsere eingeführten lernbaren Parameter zu trainieren, erstellen wir einen Datensatz von 44.000 fein abgestimmten Masken aus mehreren Quellen. HQ-SAM wird ausschließlich auf dem eingeführten Datensatz von 44.000 Masken trainiert, was nur 4 Stunden auf 8 GPUs in Anspruch nimmt. Wir zeigen die Wirksamkeit von HQ-SAM in einer Reihe von 9 verschiedenen Segmentierungsdatensätzen über verschiedene Downstream-Aufgaben hinweg, wobei 7 davon in einem Zero-Shot-Transferprotokoll evaluiert werden. Unser Code und unsere Modelle werden unter https://github.com/SysCV/SAM-HQ veröffentlicht.
English
The recent Segment Anything Model (SAM) represents a big leap in scaling up
segmentation models, allowing for powerful zero-shot capabilities and flexible
prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction
quality falls short in many cases, particularly when dealing with objects that
have intricate structures. We propose HQ-SAM, equipping SAM with the ability to
accurately segment any object, while maintaining SAM's original promptable
design, efficiency, and zero-shot generalizability. Our careful design reuses
and preserves the pre-trained model weights of SAM, while only introducing
minimal additional parameters and computation. We design a learnable
High-Quality Output Token, which is injected into SAM's mask decoder and is
responsible for predicting the high-quality mask. Instead of only applying it
on mask-decoder features, we first fuse them with early and final ViT features
for improved mask details. To train our introduced learnable parameters, we
compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is
only trained on the introduced detaset of 44k masks, which takes only 4 hours
on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation
datasets across different downstream tasks, where 7 out of them are evaluated
in a zero-shot transfer protocol. Our code and models will be released at
https://github.com/SysCV/SAM-HQ.