FrozenSeg: Armonización de Modelos Fundacionales Congelados para la Segmentación de Vocabulario Abierto

Resumen

La segmentación de vocabulario abierto plantea desafíos significativos, ya que requiere segmentar y reconocer objetos en un conjunto abierto de categorías en entornos no restringidos. Basándose en el éxito de los potentes modelos fundacionales de visión y lenguaje (ViL), como CLIP, esfuerzos recientes han buscado aprovechar sus capacidades de cero disparos para reconocer categorías no vistas. A pesar de las notables mejoras en el rendimiento, estos modelos aún enfrentan el problema crítico de generar propuestas de máscaras precisas para categorías y escenarios no vistos, lo que resulta en un rendimiento de segmentación inferior eventualmente. Para abordar este desafío, presentamos un enfoque novedoso, FrozenSeg, diseñado para integrar el conocimiento espacial de un modelo fundacional de localización (por ejemplo, SAM) y el conocimiento semántico extraído de un modelo ViL (por ejemplo, CLIP), en un marco sinérgico. Tomando el codificador visual del modelo ViL como la columna vertebral de características, inyectamos la característica consciente del espacio en las consultas aprendibles y las características de CLIP dentro del decodificador transformador. Además, diseñamos una estrategia de ensamblaje de propuestas de máscaras para mejorar aún más la tasa de recuperación y la calidad de las máscaras. Para aprovechar al máximo el conocimiento preentrenado mientras minimizamos la sobrecarga de entrenamiento, congelamos ambos modelos fundacionales, enfocando los esfuerzos de optimización únicamente en un decodificador transformador ligero para la generación de propuestas de máscaras, el cuello de botella del rendimiento. Experimentos extensos demuestran que FrozenSeg avanza los resultados de vanguardia en varios puntos de referencia de segmentación, entrenado exclusivamente en datos panópticos de COCO y probado de manera de cero disparos. El código está disponible en https://github.com/chenxi52/FrozenSeg.

English

Open-vocabulary segmentation poses significant challenges, as it requires segmenting and recognizing objects across an open set of categories in unconstrained environments. Building on the success of powerful vision-language (ViL) foundation models, such as CLIP, recent efforts sought to harness their zero-short capabilities to recognize unseen categories. Despite notable performance improvements, these models still encounter the critical issue of generating precise mask proposals for unseen categories and scenarios, resulting in inferior segmentation performance eventually. To address this challenge, we introduce a novel approach, FrozenSeg, designed to integrate spatial knowledge from a localization foundation model (e.g., SAM) and semantic knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework. Taking the ViL model's visual encoder as the feature backbone, we inject the space-aware feature into the learnable queries and CLIP features within the transformer decoder. In addition, we devise a mask proposal ensemble strategy for further improving the recall rate and mask quality. To fully exploit pre-trained knowledge while minimizing training overhead, we freeze both foundation models, focusing optimization efforts solely on a lightweight transformer decoder for mask proposal generation-the performance bottleneck. Extensive experiments demonstrate that FrozenSeg advances state-of-the-art results across various segmentation benchmarks, trained exclusively on COCO panoptic data, and tested in a zero-shot manner. Code is available at https://github.com/chenxi52/FrozenSeg.

FrozenSeg: Armonización de Modelos Fundacionales Congelados para la Segmentación de Vocabulario Abierto

FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation

Resumen

Support