Ophalen en segmenteren: Zijn een paar voorbeelden genoeg om de supervisiekloof te overbruggen bij open-vocabulariumsegmentatie?
Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?
February 26, 2026
Auteurs: Tilemachos Aravanis, Vladan Stojnić, Bill Psomas, Nikos Komodakis, Giorgos Tolias
cs.AI
Samenvatting
Open-vocabulary-segmentatie (OVS) breidt de zero-shot-herkenningscapaciteiten van vision-language-modellen (VLMs) uit naar pixelvoorspelling, waardoor segmentatie van willekeurige categorieën, gespecificeerd door tekstprompts, mogelijk wordt. Ondanks recente vooruitgang blijft OVS achter bij volledig gesuperviseerde benaderingen vanwege twee uitdagingen: de grove beeldniveau-supervisie die wordt gebruikt om VLMs te trainen en de semantische ambiguïteit van natuurlijke taal. Wij pakken deze beperkingen aan door een few-shot-instelling te introduceren die tekstprompts aanvult met een ondersteuningsset van pixelgeannoteerde afbeeldingen. Hierop voortbordurend stellen we een retrieval-augmented test-time-adapter voor die een lichtgewicht, per-beeld classifier leert door tekstuele en visuele ondersteuningskenmerken te fuseren. In tegenstelling tot eerdere methoden die vertrouwen op late, handmatig gemaakte fusie, voert onze aanpak geleerde, per-query-fusie uit, waardoor een sterkere synergie tussen modaliteiten wordt bereikt. De methode ondersteunt continu uitbreidende ondersteuningssets en is van toepassing op fijnmazige taken zoals gepersonaliseerde segmentatie. Experimenten tonen aan dat we de kloof tussen zero-shot en gesuperviseerde segmentatie aanzienlijk verkleinen, terwijl de open-vocabulary-mogelijkheid behouden blijft.
English
Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.