LPOSS: Propagación de Etiquetas sobre Parches y Píxeles para Segmentación Semántica de Vocabulario Abierto
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
March 25, 2025
Autores: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI
Resumen
Proponemos un método sin entrenamiento para la segmentación semántica de vocabulario abierto utilizando Modelos de Visión y Lenguaje (VLMs). Nuestro enfoque mejora las predicciones iniciales por parche de los VLMs mediante propagación de etiquetas, que optimiza conjuntamente las predicciones incorporando relaciones entre parches. Dado que los VLMs están principalmente optimizados para la alineación multimodal y no para la similitud intramodal, utilizamos un Modelo de Visión (VM) que se ha observado que captura mejor estas relaciones. Abordamos las limitaciones de resolución inherentes a los codificadores basados en parches aplicando la propagación de etiquetas a nivel de píxel como un paso de refinamiento, mejorando significativamente la precisión de la segmentación cerca de los límites de clase. Nuestro método, llamado LPOSS+, realiza inferencia sobre la imagen completa, evitando el procesamiento basado en ventanas y capturando así interacciones contextuales en toda la imagen. LPOSS+ logra un rendimiento de vanguardia entre los métodos sin entrenamiento, en un conjunto diverso de conjuntos de datos. Código: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation
using Vision-and-Language Models (VLMs). Our approach enhances the initial
per-patch predictions of VLMs through label propagation, which jointly
optimizes predictions by incorporating patch-to-patch relationships. Since VLMs
are primarily optimized for cross-modal alignment and not for intra-modal
similarity, we use a Vision Model (VM) that is observed to better capture these
relationships. We address resolution limitations inherent to patch-based
encoders by applying label propagation at the pixel level as a refinement step,
significantly improving segmentation accuracy near class boundaries. Our
method, called LPOSS+, performs inference over the entire image, avoiding
window-based processing and thereby capturing contextual interactions across
the full image. LPOSS+ achieves state-of-the-art performance among
training-free methods, across a diverse set of datasets. Code:
https://github.com/vladan-stojnic/LPOSS