LPOSS: Propagación de Etiquetas sobre Parches y Píxeles para Segmentación Semántica de Vocabulario Abierto

Resumen

Proponemos un método sin entrenamiento para la segmentación semántica de vocabulario abierto utilizando Modelos de Visión y Lenguaje (VLMs). Nuestro enfoque mejora las predicciones iniciales por parche de los VLMs mediante propagación de etiquetas, que optimiza conjuntamente las predicciones incorporando relaciones entre parches. Dado que los VLMs están principalmente optimizados para la alineación multimodal y no para la similitud intramodal, utilizamos un Modelo de Visión (VM) que se ha observado que captura mejor estas relaciones. Abordamos las limitaciones de resolución inherentes a los codificadores basados en parches aplicando la propagación de etiquetas a nivel de píxel como un paso de refinamiento, mejorando significativamente la precisión de la segmentación cerca de los límites de clase. Nuestro método, llamado LPOSS+, realiza inferencia sobre la imagen completa, evitando el procesamiento basado en ventanas y capturando así interacciones contextuales en toda la imagen. LPOSS+ logra un rendimiento de vanguardia entre los métodos sin entrenamiento, en un conjunto diverso de conjuntos de datos. Código: https://github.com/vladan-stojnic/LPOSS

English

We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS

LPOSS: Propagación de Etiquetas sobre Parches y Píxeles para Segmentación Semántica de Vocabulario Abierto

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

Resumen

Support