Abrufen und Segmentieren: Reichen wenige Beispiele aus, um die Überwachungslücke bei der Open-Vocabulary-Segmentierung zu schließen?

Zusammenfassung

Open-Vocabulary-Segmentierung (OVS) erweitert die Zero-Shot-Erkennungsfähigkeiten von Vision-Language-Modellen (VLMs) auf die Pixelvorhersage und ermöglicht so die Segmentierung beliebiger, durch Textprompts spezifizierter Kategorien. Trotz jüngster Fortschritte bleibt OVS hinter vollüberwachten Ansätzen zurück, was auf zwei Herausforderungen zurückzuführen ist: die grobe, auf Bildebene angewandte Supervision beim Training der VLMs und die semantische Mehrdeutigkeit der natürlichen Sprache. Wir adressieren diese Einschränkungen durch die Einführung eines Few-Shot-Settings, das textuelle Prompts um einen Support-Datensatz mit pixelgenau annotierten Bildern erweitert. Darauf aufbauend schlagen wir einen retrieval-augmentierten Test-Time-Adapter vor, der einen leichtgewichtigen, pro Bild gelernten Klassifikator durch die Fusion textueller und visueller Support-Merkmale erlernt. Im Gegensatz zu früheren Methoden, die auf späte, handgefertigte Fusion angewiesen sind, führt unser Ansatz eine gelernte, pro Query durchgeführte Fusion durch und erreicht so eine stärkere Synergie zwischen den Modalitäten. Die Methode unterstützt kontinuierlich wachsende Support-Datensätze und ist für feinkörnige Aufgaben wie personalisierte Segmentierung geeignet. Experimente zeigen, dass wir die Lücke zwischen Zero-Shot- und überwachter Segmentierung signifikant verkleinern und gleichzeitig die Open-Vocabulary-Fähigkeit erhalten.

English

Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.