LPOSS: Propagação de Rótulos sobre Patches e Pixels para Segmentação Semântica de Vocabulário Aberto
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
March 25, 2025
Autores: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI
Resumo
Propomos um método sem treinamento para segmentação semântica de vocabulário aberto utilizando Modelos de Visão e Linguagem (VLMs). Nossa abordagem aprimora as previsões iniciais por patch dos VLMs por meio de propagação de rótulos, que otimiza conjuntamente as previsões ao incorporar relações patch-a-patch. Como os VLMs são principalmente otimizados para alinhamento multimodal e não para similaridade intramodal, utilizamos um Modelo de Visão (VM) que demonstra capturar melhor essas relações. Resolvemos as limitações de resolução inerentes aos codificadores baseados em patch aplicando a propagação de rótulos em nível de pixel como uma etapa de refinamento, melhorando significativamente a precisão da segmentação próximo às fronteiras de classe. Nosso método, denominado LPOSS+, realiza inferência sobre a imagem inteira, evitando o processamento baseado em janelas e, assim, capturando interações contextuais em toda a imagem. O LPOSS+ alcança desempenho de ponta entre os métodos sem treinamento, em um conjunto diversificado de conjuntos de dados. Código: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation
using Vision-and-Language Models (VLMs). Our approach enhances the initial
per-patch predictions of VLMs through label propagation, which jointly
optimizes predictions by incorporating patch-to-patch relationships. Since VLMs
are primarily optimized for cross-modal alignment and not for intra-modal
similarity, we use a Vision Model (VM) that is observed to better capture these
relationships. We address resolution limitations inherent to patch-based
encoders by applying label propagation at the pixel level as a refinement step,
significantly improving segmentation accuracy near class boundaries. Our
method, called LPOSS+, performs inference over the entire image, avoiding
window-based processing and thereby capturing contextual interactions across
the full image. LPOSS+ achieves state-of-the-art performance among
training-free methods, across a diverse set of datasets. Code:
https://github.com/vladan-stojnic/LPOSSSummary
AI-Generated Summary