FrozenSeg: Harmonisierung eingefrorener Basismodelle für Open-Vocabulary-Segmentierung
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
September 5, 2024
papers.authors: Xi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
cs.AI
papers.abstract
Open-Vocabulary-Segmentierung stellt erhebliche Herausforderungen dar, da sie die Segmentierung und Erkennung von Objekten über eine offene Menge von Kategorien in unkontrollierten Umgebungen erfordert. Aufbauend auf dem Erfolg leistungsstarker Vision-Language (ViL)-Foundation-Modelle wie CLIP zielten jüngste Bestrebungen darauf ab, deren Zero-Shot-Fähigkeiten zur Erkennung ungesehener Kategorien zu nutzen. Trotz bemerkenswerter Leistungsverbesserungen stoßen diese Modelle nach wie vor auf das kritische Problem, präzise Maskenvorschläge für ungesehene Kategorien und Szenarien zu generieren, was letztendlich zu einer unterlegenen Segmentierungsleistung führt. Um diese Herausforderung zu bewältigen, stellen wir einen neuartigen Ansatz namens FrozenSeg vor, der räumliches Wissen aus einem Lokalisierungs-Foundation-Modell (z.B. SAM) und semantisches Wissen aus einem ViL-Modell (z.B. CLIP) in einem synergetischen Framework integriert. Unter Verwendung des visuellen Encoders des ViL-Modells als Feature-Backbone injizieren wir raumbewusste Features in die lernbaren Queries und CLIP-Features innerhalb des Transformer-Decoders. Zusätzlich entwickeln wir eine Maskenvorschlags-Ensemble-Strategie zur weiteren Verbesserung der Recall-Rate und Maskenqualität. Um vortrainiertes Wissen vollständig zu nutzen und gleichzeitig den Trainingsaufwand zu minimieren, frieren wir beide Foundation-Modelle ein und konzentrieren die Optimierungsbemühungen ausschließlich auf einen leichten Transformer-Decoder zur Generierung von Maskenvorschlägen – dem Leistungsengpass. Umfangreiche Experimente belegen, dass FrozenSeg state-of-the-art Ergebnisse auf verschiedenen Segmentierungs-Benchmarks erreicht, wobei es ausschließlich auf COCO Panoptic-Daten trainiert und auf Zero-Shot-Weise getestet wurde. Der Code ist verfügbar unter https://github.com/chenxi52/FrozenSeg.
English
Open-vocabulary segmentation poses significant challenges, as it requires
segmenting and recognizing objects across an open set of categories in
unconstrained environments. Building on the success of powerful vision-language
(ViL) foundation models, such as CLIP, recent efforts sought to harness their
zero-short capabilities to recognize unseen categories. Despite notable
performance improvements, these models still encounter the critical issue of
generating precise mask proposals for unseen categories and scenarios,
resulting in inferior segmentation performance eventually. To address this
challenge, we introduce a novel approach, FrozenSeg, designed to integrate
spatial knowledge from a localization foundation model (e.g., SAM) and semantic
knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework.
Taking the ViL model's visual encoder as the feature backbone, we inject the
space-aware feature into the learnable queries and CLIP features within the
transformer decoder. In addition, we devise a mask proposal ensemble strategy
for further improving the recall rate and mask quality. To fully exploit
pre-trained knowledge while minimizing training overhead, we freeze both
foundation models, focusing optimization efforts solely on a lightweight
transformer decoder for mask proposal generation-the performance bottleneck.
Extensive experiments demonstrate that FrozenSeg advances state-of-the-art
results across various segmentation benchmarks, trained exclusively on COCO
panoptic data, and tested in a zero-shot manner. Code is available at
https://github.com/chenxi52/FrozenSeg.