LPOSS : Propagation de Labels sur les Patchs et Pixels pour la Segmentation Sémantique à Vocabulaire Ouvert
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
March 25, 2025
Auteurs: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI
Résumé
Nous proposons une méthode sans apprentissage pour la segmentation sémantique à vocabulaire ouvert utilisant des modèles vision-et-langage (VLMs). Notre approche améliore les prédictions initiales par patch des VLMs grâce à une propagation de labels, qui optimise conjointement les prédictions en intégrant les relations entre patches. Étant donné que les VLMs sont principalement optimisés pour l'alignement inter-modal et non pour la similarité intra-modale, nous utilisons un modèle de vision (VM) qui s'avère mieux capturer ces relations. Nous abordons les limitations de résolution inhérentes aux encodeurs basés sur des patches en appliquant la propagation de labels au niveau des pixels comme étape de raffinement, améliorant ainsi significativement la précision de la segmentation près des limites de classes. Notre méthode, appelée LPOSS+, effectue l'inférence sur l'ensemble de l'image, évitant ainsi un traitement par fenêtres et capturant ainsi les interactions contextuelles à travers l'image entière. LPOSS+ atteint des performances de pointe parmi les méthodes sans apprentissage, sur un ensemble diversifié de jeux de données. Code : https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation
using Vision-and-Language Models (VLMs). Our approach enhances the initial
per-patch predictions of VLMs through label propagation, which jointly
optimizes predictions by incorporating patch-to-patch relationships. Since VLMs
are primarily optimized for cross-modal alignment and not for intra-modal
similarity, we use a Vision Model (VM) that is observed to better capture these
relationships. We address resolution limitations inherent to patch-based
encoders by applying label propagation at the pixel level as a refinement step,
significantly improving segmentation accuracy near class boundaries. Our
method, called LPOSS+, performs inference over the entire image, avoiding
window-based processing and thereby capturing contextual interactions across
the full image. LPOSS+ achieves state-of-the-art performance among
training-free methods, across a diverse set of datasets. Code:
https://github.com/vladan-stojnic/LPOSSSummary
AI-Generated Summary