FrozenSeg: Armonizzazione di Modelli Base Congelati per la Segmentazione Open-Vocabulary

Abstract

La segmentazione open-vocabulary presenta sfide significative, poiché richiede di segmentare e riconoscere oggetti attraverso un insieme aperto di categorie in ambienti non vincolati. Basandosi sul successo di potenti modelli fondazionali vision-language (ViL) come CLIP, recenti sforzi hanno cercato di sfruttare le loro capacità zero-shot per riconoscere categorie non viste. Nonostante notevoli miglioramenti delle prestazioni, questi modelli incontrano ancora il problema critico di generare proposte di maschere precise per categorie e scenari non visti, risultando alla fine in prestazioni di segmentazione inferiori. Per affrontare questa sfida, introduciamo un approccio innovativo, FrozenSeg, progettato per integrare la conoscenza spaziale da un modello fondazionale di localizzazione (ad es. SAM) e la conoscenza semantica estratta da un modello ViL (ad es. CLIP), in un framework sinergico. Utilizzando l'encoder visivo del modello ViL come backbone delle feature, iniettiamo la feature spazialmente consapevole nelle query apprendibili e nelle feature CLIP all'interno del decoder del trasformatore. Inoltre, ideiamo una strategia di ensemble per le proposte di maschera per migliorare ulteriormente il tasso di recall e la qualità delle maschere. Per sfruttare appieno la conoscenza pre-addestrata minimizzando il sovraccarico computazionale, congeliamo entrambi i modelli fondazionali, concentrando gli sforzi di ottimizzazione esclusivamente su un leggero decoder a trasformatore per la generazione di proposte di maschera - il collo di bottiglia delle prestazioni. Esperimenti estensivi dimostrano che FrozenSeg avanza lo stato dell'arte su vari benchmark di segmentazione, addestrato esclusivamente su dati panoptici COCO e testato in modalità zero-shot. Il codice è disponibile all'indirizzo https://github.com/chenxi52/FrozenSeg.

English

Open-vocabulary segmentation poses significant challenges, as it requires segmenting and recognizing objects across an open set of categories in unconstrained environments. Building on the success of powerful vision-language (ViL) foundation models, such as CLIP, recent efforts sought to harness their zero-short capabilities to recognize unseen categories. Despite notable performance improvements, these models still encounter the critical issue of generating precise mask proposals for unseen categories and scenarios, resulting in inferior segmentation performance eventually. To address this challenge, we introduce a novel approach, FrozenSeg, designed to integrate spatial knowledge from a localization foundation model (e.g., SAM) and semantic knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework. Taking the ViL model's visual encoder as the feature backbone, we inject the space-aware feature into the learnable queries and CLIP features within the transformer decoder. In addition, we devise a mask proposal ensemble strategy for further improving the recall rate and mask quality. To fully exploit pre-trained knowledge while minimizing training overhead, we freeze both foundation models, focusing optimization efforts solely on a lightweight transformer decoder for mask proposal generation-the performance bottleneck. Extensive experiments demonstrate that FrozenSeg advances state-of-the-art results across various segmentation benchmarks, trained exclusively on COCO panoptic data, and tested in a zero-shot manner. Code is available at https://github.com/chenxi52/FrozenSeg.

FrozenSeg: Armonizzazione di Modelli Base Congelati per la Segmentazione Open-Vocabulary

FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Abstract

Support