ChatPaper.aiChatPaper

LPOSS: Propagação de Rótulos sobre Patches e Pixels para Segmentação Semântica de Vocabulário Aberto

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

March 25, 2025
Autores: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI

Resumo

Propomos um método sem treinamento para segmentação semântica de vocabulário aberto utilizando Modelos de Visão e Linguagem (VLMs). Nossa abordagem aprimora as previsões iniciais por patch dos VLMs por meio de propagação de rótulos, que otimiza conjuntamente as previsões ao incorporar relações patch-a-patch. Como os VLMs são principalmente otimizados para alinhamento multimodal e não para similaridade intramodal, utilizamos um Modelo de Visão (VM) que demonstra capturar melhor essas relações. Resolvemos as limitações de resolução inerentes aos codificadores baseados em patch aplicando a propagação de rótulos em nível de pixel como uma etapa de refinamento, melhorando significativamente a precisão da segmentação próximo às fronteiras de classe. Nosso método, denominado LPOSS+, realiza inferência sobre a imagem inteira, evitando o processamento baseado em janelas e, assim, capturando interações contextuais em toda a imagem. O LPOSS+ alcança desempenho de ponta entre os métodos sem treinamento, em um conjunto diversificado de conjuntos de dados. Código: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS

Summary

AI-Generated Summary

PDF12March 26, 2025