Recuperare e Segmentare: Bastano Pochi Esempi per Colmare il Divario di Supervisione nella Segmentazione Open-Vocabulary?
Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?
February 26, 2026
Autori: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias
cs.AI
Abstract
La segmentazione a vocabolario aperto (OVS) estende le capacità di riconoscimento zero-shot dei modelli visione-linguaggio (VLM) alla predizione a livello di pixel, consentendo la segmentazione di categorie arbitrarie specificate da prompt testuali. Nonostante i recenti progressi, l'OVS rimane indietro rispetto agli approcci completamente supervisionati a causa di due sfide: la supervisione a livello di immagine grossolana utilizzata per addestrare i VLM e l'ambiguità semantica del linguaggio naturale. Affrontiamo queste limitazioni introducendo un setting few-shot che arricchisce i prompt testuali con un set di supporto di immagini annotate a livello di pixel. Su questa base, proponiamo un adattatore al test-time arricchito da recupero delle informazioni che apprende un classificatore leggero, specifico per ogni immagine, fondendo caratteristiche testuali e visive di supporto. A differenza dei metodi precedenti che si basano su una fusione tardiva e artigianale, il nostro approccio esegue una fusione appresa e specifica per ogni query, raggiungendo una sinergia più forte tra le modalità. Il metodo supporta set di supporto in continua espansione e si applica a compiti di granularità fine come la segmentazione personalizzata. Gli esperimenti dimostrano che riduciamo significativamente il divario tra la segmentazione zero-shot e quella supervisionata, preservando al contempo la capacità di vocabolario aperto.
English
Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.