FrozenSeg: Harmonizando Modelos de Base Congelados para Segmentação de Vocabulário Aberto
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
September 5, 2024
Autores: Xi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
cs.AI
Resumo
A segmentação de vocabulário aberto apresenta desafios significativos, uma vez que requer a segmentação e reconhecimento de objetos em um conjunto aberto de categorias em ambientes não restritos. Baseando-se no sucesso de modelos de base (foundation models) poderosos de visão e linguagem (ViL), como o CLIP, esforços recentes buscaram aproveitar suas capacidades de generalização zero-shot para reconhecer categorias não vistas. Apesar de melhorias notáveis de desempenho, esses modelos ainda enfrentam o problema crítico de gerar propostas de máscaras precisas para categorias e cenários não vistos, resultando em desempenho de segmentação inferior no final. Para enfrentar esse desafio, introduzimos uma nova abordagem, a FrozenSeg, projetada para integrar o conhecimento espacial de um modelo de base de localização (por exemplo, SAM) e o conhecimento semântico extraído de um modelo ViL (por exemplo, CLIP), em uma estrutura sinérgica. Tomando o codificador visual do modelo ViL como *backbone* de características, injetamos a característica consciente do espaço nas consultas aprendíveis e nas características CLIP dentro do decodificador *transformer*. Além disso, concebemos uma estratégia de conjunto de propostas de máscara para melhorar ainda mais a taxa de *recall* e a qualidade da máscara. Para explorar totalmente o conhecimento pré-treinado, minimizando a sobrecarga de treinamento, congelamos ambos os modelos de base, focando os esforços de otimização unicamente em um decodificador *transformer* leve para a geração de propostas de máscara – o gargalo de desempenho. Experimentos extensivos demonstram que a FrozenSeg avança os resultados de *state-of-the-art* em vários benchmarks de segmentação, treinada exclusivamente em dados panópticos do COCO e testada de maneira zero-shot. O código está disponível em https://github.com/chenxi52/FrozenSeg.
English
Open-vocabulary segmentation poses significant challenges, as it requires
segmenting and recognizing objects across an open set of categories in
unconstrained environments. Building on the success of powerful vision-language
(ViL) foundation models, such as CLIP, recent efforts sought to harness their
zero-short capabilities to recognize unseen categories. Despite notable
performance improvements, these models still encounter the critical issue of
generating precise mask proposals for unseen categories and scenarios,
resulting in inferior segmentation performance eventually. To address this
challenge, we introduce a novel approach, FrozenSeg, designed to integrate
spatial knowledge from a localization foundation model (e.g., SAM) and semantic
knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework.
Taking the ViL model's visual encoder as the feature backbone, we inject the
space-aware feature into the learnable queries and CLIP features within the
transformer decoder. In addition, we devise a mask proposal ensemble strategy
for further improving the recall rate and mask quality. To fully exploit
pre-trained knowledge while minimizing training overhead, we freeze both
foundation models, focusing optimization efforts solely on a lightweight
transformer decoder for mask proposal generation-the performance bottleneck.
Extensive experiments demonstrate that FrozenSeg advances state-of-the-art
results across various segmentation benchmarks, trained exclusively on COCO
panoptic data, and tested in a zero-shot manner. Code is available at
https://github.com/chenxi52/FrozenSeg.