FrozenSeg: Harmonisierung eingefrorener Basismodelle für Open-Vocabulary-Segmentierung

papers.abstract

Open-Vocabulary-Segmentierung stellt erhebliche Herausforderungen dar, da sie die Segmentierung und Erkennung von Objekten über eine offene Menge von Kategorien in unkontrollierten Umgebungen erfordert. Aufbauend auf dem Erfolg leistungsstarker Vision-Language (ViL)-Foundation-Modelle wie CLIP zielten jüngste Bestrebungen darauf ab, deren Zero-Shot-Fähigkeiten zur Erkennung ungesehener Kategorien zu nutzen. Trotz bemerkenswerter Leistungsverbesserungen stoßen diese Modelle nach wie vor auf das kritische Problem, präzise Maskenvorschläge für ungesehene Kategorien und Szenarien zu generieren, was letztendlich zu einer unterlegenen Segmentierungsleistung führt. Um diese Herausforderung zu bewältigen, stellen wir einen neuartigen Ansatz namens FrozenSeg vor, der räumliches Wissen aus einem Lokalisierungs-Foundation-Modell (z.B. SAM) und semantisches Wissen aus einem ViL-Modell (z.B. CLIP) in einem synergetischen Framework integriert. Unter Verwendung des visuellen Encoders des ViL-Modells als Feature-Backbone injizieren wir raumbewusste Features in die lernbaren Queries und CLIP-Features innerhalb des Transformer-Decoders. Zusätzlich entwickeln wir eine Maskenvorschlags-Ensemble-Strategie zur weiteren Verbesserung der Recall-Rate und Maskenqualität. Um vortrainiertes Wissen vollständig zu nutzen und gleichzeitig den Trainingsaufwand zu minimieren, frieren wir beide Foundation-Modelle ein und konzentrieren die Optimierungsbemühungen ausschließlich auf einen leichten Transformer-Decoder zur Generierung von Maskenvorschlägen – dem Leistungsengpass. Umfangreiche Experimente belegen, dass FrozenSeg state-of-the-art Ergebnisse auf verschiedenen Segmentierungs-Benchmarks erreicht, wobei es ausschließlich auf COCO Panoptic-Daten trainiert und auf Zero-Shot-Weise getestet wurde. Der Code ist verfügbar unter https://github.com/chenxi52/FrozenSeg.

English

Open-vocabulary segmentation poses significant challenges, as it requires segmenting and recognizing objects across an open set of categories in unconstrained environments. Building on the success of powerful vision-language (ViL) foundation models, such as CLIP, recent efforts sought to harness their zero-short capabilities to recognize unseen categories. Despite notable performance improvements, these models still encounter the critical issue of generating precise mask proposals for unseen categories and scenarios, resulting in inferior segmentation performance eventually. To address this challenge, we introduce a novel approach, FrozenSeg, designed to integrate spatial knowledge from a localization foundation model (e.g., SAM) and semantic knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework. Taking the ViL model's visual encoder as the feature backbone, we inject the space-aware feature into the learnable queries and CLIP features within the transformer decoder. In addition, we devise a mask proposal ensemble strategy for further improving the recall rate and mask quality. To fully exploit pre-trained knowledge while minimizing training overhead, we freeze both foundation models, focusing optimization efforts solely on a lightweight transformer decoder for mask proposal generation-the performance bottleneck. Extensive experiments demonstrate that FrozenSeg advances state-of-the-art results across various segmentation benchmarks, trained exclusively on COCO panoptic data, and tested in a zero-shot manner. Code is available at https://github.com/chenxi52/FrozenSeg.

FrozenSeg: Harmonisierung eingefrorener Basismodelle für Open-Vocabulary-Segmentierung

FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

papers.abstract

Support