Récupérer et segmenter : quelques exemples suffisent-ils à combler le déficit de supervision en segmentation à vocabulaire ouvert ?

Résumé

La segmentation à vocabulaire ouvert (OVS) étend les capacités de reconnaissance zero-shot des modèles vision-langage (VLM) à la prédiction au niveau pixel, permettant la segmentation de catégories arbitraires spécifiées par des invites textuelles. Malgré les progrès récents, l'OVS reste inférieure aux approches supervisées en raison de deux défis : la supervision grossière au niveau image utilisée pour entraîner les VLM et l'ambiguïté sémantique du langage naturel. Nous abordons ces limitations en introduit un cadre few-shot qui enrichit les invites textuelles avec un ensemble de support d'images annotées au niveau pixel. Sur cette base, nous proposons un adaptateur en temps de test augmenté par retrieval qui apprend un classifieur léger, par image, en fusionnant les caractéristiques textuelles et visuelles de support. Contrairement aux méthodes antérieures reposant sur une fusion tardive et artisanale, notre approche effectue une fusion apprise, par requête, atteignant une synergie plus forte entre les modalités. La méthode prend en charge des ensembles de support extensibles continuellement et s'applique à des tâches fines telles que la segmentation personnalisée. Les expériences montrent que nous réduisons significativement l'écart entre la segmentation zero-shot et supervisée tout en préservant la capacité à vocabulaire ouvert.

English

Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.

Récupérer et segmenter : quelques exemples suffisent-ils à combler le déficit de supervision en segmentation à vocabulaire ouvert ?

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Résumé

Support