FrozenSeg: Armonizzazione di Modelli Base Congelati per la Segmentazione Open-Vocabulary
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
September 5, 2024
Autori: Xi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
cs.AI
Abstract
La segmentazione open-vocabulary presenta sfide significative, poiché richiede di segmentare e riconoscere oggetti attraverso un insieme aperto di categorie in ambienti non vincolati. Basandosi sul successo di potenti modelli fondazionali vision-language (ViL) come CLIP, recenti sforzi hanno cercato di sfruttare le loro capacità zero-shot per riconoscere categorie non viste. Nonostante notevoli miglioramenti delle prestazioni, questi modelli incontrano ancora il problema critico di generare proposte di maschere precise per categorie e scenari non visti, risultando alla fine in prestazioni di segmentazione inferiori. Per affrontare questa sfida, introduciamo un approccio innovativo, FrozenSeg, progettato per integrare la conoscenza spaziale da un modello fondazionale di localizzazione (ad es. SAM) e la conoscenza semantica estratta da un modello ViL (ad es. CLIP), in un framework sinergico. Utilizzando l'encoder visivo del modello ViL come backbone delle feature, iniettiamo la feature spazialmente consapevole nelle query apprendibili e nelle feature CLIP all'interno del decoder del trasformatore. Inoltre, ideiamo una strategia di ensemble per le proposte di maschera per migliorare ulteriormente il tasso di recall e la qualità delle maschere. Per sfruttare appieno la conoscenza pre-addestrata minimizzando il sovraccarico computazionale, congeliamo entrambi i modelli fondazionali, concentrando gli sforzi di ottimizzazione esclusivamente su un leggero decoder a trasformatore per la generazione di proposte di maschera - il collo di bottiglia delle prestazioni. Esperimenti estensivi dimostrano che FrozenSeg avanza lo stato dell'arte su vari benchmark di segmentazione, addestrato esclusivamente su dati panoptici COCO e testato in modalità zero-shot. Il codice è disponibile all'indirizzo https://github.com/chenxi52/FrozenSeg.
English
Open-vocabulary segmentation poses significant challenges, as it requires
segmenting and recognizing objects across an open set of categories in
unconstrained environments. Building on the success of powerful vision-language
(ViL) foundation models, such as CLIP, recent efforts sought to harness their
zero-short capabilities to recognize unseen categories. Despite notable
performance improvements, these models still encounter the critical issue of
generating precise mask proposals for unseen categories and scenarios,
resulting in inferior segmentation performance eventually. To address this
challenge, we introduce a novel approach, FrozenSeg, designed to integrate
spatial knowledge from a localization foundation model (e.g., SAM) and semantic
knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework.
Taking the ViL model's visual encoder as the feature backbone, we inject the
space-aware feature into the learnable queries and CLIP features within the
transformer decoder. In addition, we devise a mask proposal ensemble strategy
for further improving the recall rate and mask quality. To fully exploit
pre-trained knowledge while minimizing training overhead, we freeze both
foundation models, focusing optimization efforts solely on a lightweight
transformer decoder for mask proposal generation-the performance bottleneck.
Extensive experiments demonstrate that FrozenSeg advances state-of-the-art
results across various segmentation benchmarks, trained exclusively on COCO
panoptic data, and tested in a zero-shot manner. Code is available at
https://github.com/chenxi52/FrozenSeg.