FrozenSeg: Harmonizando Modelos de Base Congelados para Segmentação de Vocabulário Aberto

Resumo

A segmentação de vocabulário aberto apresenta desafios significativos, uma vez que requer a segmentação e reconhecimento de objetos em um conjunto aberto de categorias em ambientes não restritos. Baseando-se no sucesso de modelos de base (foundation models) poderosos de visão e linguagem (ViL), como o CLIP, esforços recentes buscaram aproveitar suas capacidades de generalização zero-shot para reconhecer categorias não vistas. Apesar de melhorias notáveis de desempenho, esses modelos ainda enfrentam o problema crítico de gerar propostas de máscaras precisas para categorias e cenários não vistos, resultando em desempenho de segmentação inferior no final. Para enfrentar esse desafio, introduzimos uma nova abordagem, a FrozenSeg, projetada para integrar o conhecimento espacial de um modelo de base de localização (por exemplo, SAM) e o conhecimento semântico extraído de um modelo ViL (por exemplo, CLIP), em uma estrutura sinérgica. Tomando o codificador visual do modelo ViL como *backbone* de características, injetamos a característica consciente do espaço nas consultas aprendíveis e nas características CLIP dentro do decodificador *transformer*. Além disso, concebemos uma estratégia de conjunto de propostas de máscara para melhorar ainda mais a taxa de *recall* e a qualidade da máscara. Para explorar totalmente o conhecimento pré-treinado, minimizando a sobrecarga de treinamento, congelamos ambos os modelos de base, focando os esforços de otimização unicamente em um decodificador *transformer* leve para a geração de propostas de máscara – o gargalo de desempenho. Experimentos extensivos demonstram que a FrozenSeg avança os resultados de *state-of-the-art* em vários benchmarks de segmentação, treinada exclusivamente em dados panópticos do COCO e testada de maneira zero-shot. O código está disponível em https://github.com/chenxi52/FrozenSeg.

English

Open-vocabulary segmentation poses significant challenges, as it requires segmenting and recognizing objects across an open set of categories in unconstrained environments. Building on the success of powerful vision-language (ViL) foundation models, such as CLIP, recent efforts sought to harness their zero-short capabilities to recognize unseen categories. Despite notable performance improvements, these models still encounter the critical issue of generating precise mask proposals for unseen categories and scenarios, resulting in inferior segmentation performance eventually. To address this challenge, we introduce a novel approach, FrozenSeg, designed to integrate spatial knowledge from a localization foundation model (e.g., SAM) and semantic knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework. Taking the ViL model's visual encoder as the feature backbone, we inject the space-aware feature into the learnable queries and CLIP features within the transformer decoder. In addition, we devise a mask proposal ensemble strategy for further improving the recall rate and mask quality. To fully exploit pre-trained knowledge while minimizing training overhead, we freeze both foundation models, focusing optimization efforts solely on a lightweight transformer decoder for mask proposal generation-the performance bottleneck. Extensive experiments demonstrate that FrozenSeg advances state-of-the-art results across various segmentation benchmarks, trained exclusively on COCO panoptic data, and tested in a zero-shot manner. Code is available at https://github.com/chenxi52/FrozenSeg.

FrozenSeg: Harmonizando Modelos de Base Congelados para Segmentação de Vocabulário Aberto

FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Resumo

Support