ChatPaper.aiChatPaper

LPOSS: Label Propagatie Over Patches en Pixels voor Open-vocabulary Semantische Segmentatie

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

March 25, 2025
Auteurs: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI

Samenvatting

Wij stellen een trainingsvrije methode voor voor open-vocabulary semantische segmentatie met behulp van Vision-and-Language Models (VLMs). Onze aanpak verbetert de initiële per-patch voorspellingen van VLMs door middel van labelpropagatie, waarbij voorspellingen gezamenlijk worden geoptimaliseerd door patch-naar-patch relaties te incorporeren. Aangezien VLMs primair zijn geoptimaliseerd voor cross-modale uitlijning en niet voor intra-modale gelijkenis, gebruiken wij een Vision Model (VM) waarvan is geobserveerd dat het deze relaties beter vastlegt. Wij pakken de resolutiebeperkingen aan die inherent zijn aan patch-gebaseerde encoders door labelpropagatie op pixelniveau toe te passen als een verfijningsstap, wat de segmentatienauwkeurigheid nabij klassegrenzen aanzienlijk verbetert. Onze methode, genaamd LPOSS+, voert inferentie uit over de gehele afbeelding, waardoor window-gebaseerde verwerking wordt vermeden en contextuele interacties over de volledige afbeelding worden vastgelegd. LPOSS+ behaalt state-of-the-art prestaties onder trainingsvrije methoden, over een diverse set van datasets. Code: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS

Summary

AI-Generated Summary

PDF12March 26, 2025