FrozenSeg: Armonización de Modelos Fundacionales Congelados para la Segmentación de Vocabulario Abierto
FrozenSeg: Harmonizing Frozen Foundation Models for Open-Vocabulary Segmentation
September 5, 2024
Autores: Xi Chen, Haosen Yang, Sheng Jin, Xiatian Zhu, Hongxun Yao
cs.AI
Resumen
La segmentación de vocabulario abierto plantea desafíos significativos, ya que requiere segmentar y reconocer objetos en un conjunto abierto de categorías en entornos no restringidos. Basándose en el éxito de los potentes modelos fundacionales de visión y lenguaje (ViL), como CLIP, esfuerzos recientes han buscado aprovechar sus capacidades de cero disparos para reconocer categorías no vistas. A pesar de las notables mejoras en el rendimiento, estos modelos aún enfrentan el problema crítico de generar propuestas de máscaras precisas para categorías y escenarios no vistos, lo que resulta en un rendimiento de segmentación inferior eventualmente. Para abordar este desafío, presentamos un enfoque novedoso, FrozenSeg, diseñado para integrar el conocimiento espacial de un modelo fundacional de localización (por ejemplo, SAM) y el conocimiento semántico extraído de un modelo ViL (por ejemplo, CLIP), en un marco sinérgico. Tomando el codificador visual del modelo ViL como la columna vertebral de características, inyectamos la característica consciente del espacio en las consultas aprendibles y las características de CLIP dentro del decodificador transformador. Además, diseñamos una estrategia de ensamblaje de propuestas de máscaras para mejorar aún más la tasa de recuperación y la calidad de las máscaras. Para aprovechar al máximo el conocimiento preentrenado mientras minimizamos la sobrecarga de entrenamiento, congelamos ambos modelos fundacionales, enfocando los esfuerzos de optimización únicamente en un decodificador transformador ligero para la generación de propuestas de máscaras, el cuello de botella del rendimiento. Experimentos extensos demuestran que FrozenSeg avanza los resultados de vanguardia en varios puntos de referencia de segmentación, entrenado exclusivamente en datos panópticos de COCO y probado de manera de cero disparos. El código está disponible en https://github.com/chenxi52/FrozenSeg.
English
Open-vocabulary segmentation poses significant challenges, as it requires
segmenting and recognizing objects across an open set of categories in
unconstrained environments. Building on the success of powerful vision-language
(ViL) foundation models, such as CLIP, recent efforts sought to harness their
zero-short capabilities to recognize unseen categories. Despite notable
performance improvements, these models still encounter the critical issue of
generating precise mask proposals for unseen categories and scenarios,
resulting in inferior segmentation performance eventually. To address this
challenge, we introduce a novel approach, FrozenSeg, designed to integrate
spatial knowledge from a localization foundation model (e.g., SAM) and semantic
knowledge extracted from a ViL model (e.g., CLIP), in a synergistic framework.
Taking the ViL model's visual encoder as the feature backbone, we inject the
space-aware feature into the learnable queries and CLIP features within the
transformer decoder. In addition, we devise a mask proposal ensemble strategy
for further improving the recall rate and mask quality. To fully exploit
pre-trained knowledge while minimizing training overhead, we freeze both
foundation models, focusing optimization efforts solely on a lightweight
transformer decoder for mask proposal generation-the performance bottleneck.
Extensive experiments demonstrate that FrozenSeg advances state-of-the-art
results across various segmentation benchmarks, trained exclusively on COCO
panoptic data, and tested in a zero-shot manner. Code is available at
https://github.com/chenxi52/FrozenSeg.