Recuperar y segmentar: ¿Son suficientes unos pocos ejemplos para cerrar la brecha de supervisión en la segmentación de vocabulario abierto?

Resumen

La segmentación de vocabulario abierto (OVS) extiende las capacidades de reconocimiento zero-shot de los modelos de visión y lenguaje (VLM) a la predicción a nivel de píxel, permitiendo la segmentación de categorías arbitrarias especificadas mediante indicaciones de texto. A pesar de los avances recientes, la OVS se queda por detrás de los enfoques totalmente supervisados debido a dos desafíos: la supervisión a nivel de imagen, de carácter general, utilizada para entrenar los VLM y la ambigüedad semántica del lenguaje natural. Abordamos estas limitaciones introduciendo un entorno de *few-shot* que aumenta las indicaciones textuales con un conjunto de soporte de imágenes anotadas a nivel de píxel. Basándonos en esto, proponemos un adaptador en tiempo de prueba aumentado por recuperación que aprende un clasificador ligero, por imagen, fusionando características de soporte textuales y visuales. A diferencia de métodos anteriores que dependen de una fusión tardía y manual, nuestro enfoque realiza una fusión aprendida y por consulta, logrando una sinergia más fuerte entre modalidades. El método admite conjuntos de soporte en continua expansión y se aplica a tareas de grano fino, como la segmentación personalizada. Los experimentos muestran que reducimos significativamente la brecha entre la segmentación zero-shot y la supervisada, al tiempo que preservamos la capacidad de vocabulario abierto.

English

Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.

Recuperar y segmentar: ¿Son suficientes unos pocos ejemplos para cerrar la brecha de supervisión en la segmentación de vocabulario abierto?

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Resumen

Support