LPOSS: Label-Propagation über Patches und Pixel für Open-Vocabulary-Semantiksegmentierung
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
March 25, 2025
Autoren: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI
Zusammenfassung
Wir schlagen eine trainingsfreie Methode für die offene Vokabel-Semantiksegmentierung unter Verwendung von Vision-and-Language-Modellen (VLMs) vor. Unser Ansatz verbessert die initialen Vorhersagen pro Patch von VLMs durch Label-Propagation, die Vorhersagen durch die Einbeziehung von Patch-zu-Patch-Beziehungen gemeinsam optimiert. Da VLMs primär für die cross-modale Ausrichtung und nicht für die intra-modale Ähnlichkeit optimiert sind, verwenden wir ein Vision-Modell (VM), das diese Beziehungen besser erfassen kann. Wir adressieren die Auflösungsbeschränkungen, die bei patch-basierten Encodern inhärent sind, indem wir Label-Propagation auf Pixel-Ebene als Verfeinerungsschritt anwenden, was die Segmentierungsgenauigkeit nahe Klassenbegrenzungen erheblich verbessert. Unsere Methode, genannt LPOSS+, führt die Inferenz über das gesamte Bild durch, vermeidet fensterbasierte Verarbeitung und erfasst dadurch kontextuelle Interaktionen über das gesamte Bild hinweg. LPOSS+ erreicht state-of-the-art Leistung unter trainingsfreien Methoden über eine Vielzahl von Datensätzen hinweg. Code: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation
using Vision-and-Language Models (VLMs). Our approach enhances the initial
per-patch predictions of VLMs through label propagation, which jointly
optimizes predictions by incorporating patch-to-patch relationships. Since VLMs
are primarily optimized for cross-modal alignment and not for intra-modal
similarity, we use a Vision Model (VM) that is observed to better capture these
relationships. We address resolution limitations inherent to patch-based
encoders by applying label propagation at the pixel level as a refinement step,
significantly improving segmentation accuracy near class boundaries. Our
method, called LPOSS+, performs inference over the entire image, avoiding
window-based processing and thereby capturing contextual interactions across
the full image. LPOSS+ achieves state-of-the-art performance among
training-free methods, across a diverse set of datasets. Code:
https://github.com/vladan-stojnic/LPOSSSummary
AI-Generated Summary