LPOSS : Propagation de Labels sur les Patchs et Pixels pour la Segmentation Sémantique à Vocabulaire Ouvert

Résumé

Nous proposons une méthode sans apprentissage pour la segmentation sémantique à vocabulaire ouvert utilisant des modèles vision-et-langage (VLMs). Notre approche améliore les prédictions initiales par patch des VLMs grâce à une propagation de labels, qui optimise conjointement les prédictions en intégrant les relations entre patches. Étant donné que les VLMs sont principalement optimisés pour l'alignement inter-modal et non pour la similarité intra-modale, nous utilisons un modèle de vision (VM) qui s'avère mieux capturer ces relations. Nous abordons les limitations de résolution inhérentes aux encodeurs basés sur des patches en appliquant la propagation de labels au niveau des pixels comme étape de raffinement, améliorant ainsi significativement la précision de la segmentation près des limites de classes. Notre méthode, appelée LPOSS+, effectue l'inférence sur l'ensemble de l'image, évitant ainsi un traitement par fenêtres et capturant ainsi les interactions contextuelles à travers l'image entière. LPOSS+ atteint des performances de pointe parmi les méthodes sans apprentissage, sur un ensemble diversifié de jeux de données. Code : https://github.com/vladan-stojnic/LPOSS

English

We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS