Recuperar e Segmentar: Alguns Exemplos São Suficientes para Preencher a Lacuna de Supervisão na Segmentação de Vocabulário Aberto?

Resumo

A segmentação de vocabulário aberto (SVA) estende as capacidades de reconhecimento zero-shot dos modelos visão-linguagem (MVLs) para a previsão em nível de pixel, permitindo a segmentação de categorias arbitrárias especificadas por prompts de texto. Apesar dos progressos recentes, a SVA fica atrás das abordagens totalmente supervisionadas devido a dois desafios: a supervisão em nível de imagem, de baixo detalhe, usada para treinar os MVLs e a ambiguidade semântica da linguagem natural. Nós abordamos essas limitações introduzindo um cenário de poucas amostras (few-shot) que aumenta os prompts textuais com um conjunto de suporte de imagens anotadas em pixel. Com base nisso, propomos um adaptador de teste aumentado por recuperação (retrieval) que aprende um classificador leve, por imagem, fundindo características de suporte textuais e visuais. Diferente de métodos anteriores que dependem de uma fusão tardia e manualmente elaborada, nossa abordagem realiza uma fusão aprendida e por consulta, alcançando uma sinergia mais forte entre as modalidades. O método suporta conjuntos de suporte em expansão contínua e se aplica a tarefas de granularidade fina, como a segmentação personalizada. Experimentos mostram que reduzimos significativamente a lacuna entre a segmentação zero-shot e a supervisionada, preservando a capacidade de vocabulário aberto.

English

Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.

Recuperar e Segmentar: Alguns Exemplos São Suficientes para Preencher a Lacuna de Supervisão na Segmentação de Vocabulário Aberto?

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Resumo

Support