Segmentieren von allem in hoher Qualität

Zusammenfassung

Das kürzlich vorgestellte Segment Anything Model (SAM) stellt einen großen Fortschritt bei der Skalierung von Segmentierungsmodellen dar und ermöglicht leistungsstarke Zero-Shot-Fähigkeiten sowie flexible Prompting. Obwohl SAM mit 1,1 Milliarden Masken trainiert wurde, bleibt die Qualität der Maskenvorhersage in vielen Fällen hinter den Erwartungen zurück, insbesondere bei Objekten mit komplexen Strukturen. Wir schlagen HQ-SAM vor, das SAM die Fähigkeit verleiht, jedes Objekt präzise zu segmentieren, während das ursprüngliche promptfähige Design, die Effizienz und die Zero-Shot-Generalisierbarkeit von SAM beibehalten werden. Unser sorgfältiges Design nutzt und bewahrt die vortrainierten Modellgewichte von SAM, während nur minimale zusätzliche Parameter und Berechnungen eingeführt werden. Wir entwerfen einen lernbaren High-Quality Output Token, der in den Maskendecoder von SAM injiziert wird und für die Vorhersage der hochwertigen Maske verantwortlich ist. Anstatt ihn nur auf die Merkmale des Maskendecoders anzuwenden, fusionieren wir diese zunächst mit frühen und finalen ViT-Merkmalen, um die Maskendetails zu verbessern. Um unsere eingeführten lernbaren Parameter zu trainieren, erstellen wir einen Datensatz von 44.000 fein abgestimmten Masken aus mehreren Quellen. HQ-SAM wird ausschließlich auf dem eingeführten Datensatz von 44.000 Masken trainiert, was nur 4 Stunden auf 8 GPUs in Anspruch nimmt. Wir zeigen die Wirksamkeit von HQ-SAM in einer Reihe von 9 verschiedenen Segmentierungsdatensätzen über verschiedene Downstream-Aufgaben hinweg, wobei 7 davon in einem Zero-Shot-Transferprotokoll evaluiert werden. Unser Code und unsere Modelle werden unter https://github.com/SysCV/SAM-HQ veröffentlicht.

English

The recent Segment Anything Model (SAM) represents a big leap in scaling up segmentation models, allowing for powerful zero-shot capabilities and flexible prompting. Despite being trained with 1.1 billion masks, SAM's mask prediction quality falls short in many cases, particularly when dealing with objects that have intricate structures. We propose HQ-SAM, equipping SAM with the ability to accurately segment any object, while maintaining SAM's original promptable design, efficiency, and zero-shot generalizability. Our careful design reuses and preserves the pre-trained model weights of SAM, while only introducing minimal additional parameters and computation. We design a learnable High-Quality Output Token, which is injected into SAM's mask decoder and is responsible for predicting the high-quality mask. Instead of only applying it on mask-decoder features, we first fuse them with early and final ViT features for improved mask details. To train our introduced learnable parameters, we compose a dataset of 44K fine-grained masks from several sources. HQ-SAM is only trained on the introduced detaset of 44k masks, which takes only 4 hours on 8 GPUs. We show the efficacy of HQ-SAM in a suite of 9 diverse segmentation datasets across different downstream tasks, where 7 out of them are evaluated in a zero-shot transfer protocol. Our code and models will be released at https://github.com/SysCV/SAM-HQ.

Segmentieren von allem in hoher Qualität

Segment Anything in High Quality

Zusammenfassung

Support