LPOSS: Распространение меток по патчам и пикселям для семантической сегментации с открытым словарём
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
March 25, 2025
Авторы: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI
Аннотация
Мы предлагаем метод для семантической сегментации с открытым словарём, не требующий обучения, с использованием моделей, объединяющих зрение и язык (Vision-and-Language Models, VLMs). Наш подход улучшает начальные предсказания на уровне отдельных патчей, полученные с помощью VLMs, за счёт распространения меток, которое совместно оптимизирует предсказания, учитывая отношения между патчами. Поскольку VLMs в основном оптимизированы для кросс-модального согласования, а не для внутримодального сходства, мы используем модель зрения (Vision Model, VM), которая, как было замечено, лучше захватывает такие отношения. Мы устраняем ограничения разрешения, присущие патч-ориентированным энкодерам, применяя распространение меток на уровне пикселей в качестве этапа уточнения, что значительно повышает точность сегментации вблизи границ классов. Наш метод, названный LPOSS+, выполняет вывод на всём изображении, избегая обработки по окнам и тем самым учитывая контекстные взаимодействия по всему изображению. LPOSS+ демонстрирует наилучшие результаты среди методов, не требующих обучения, на разнообразных наборах данных. Код: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation
using Vision-and-Language Models (VLMs). Our approach enhances the initial
per-patch predictions of VLMs through label propagation, which jointly
optimizes predictions by incorporating patch-to-patch relationships. Since VLMs
are primarily optimized for cross-modal alignment and not for intra-modal
similarity, we use a Vision Model (VM) that is observed to better capture these
relationships. We address resolution limitations inherent to patch-based
encoders by applying label propagation at the pixel level as a refinement step,
significantly improving segmentation accuracy near class boundaries. Our
method, called LPOSS+, performs inference over the entire image, avoiding
window-based processing and thereby capturing contextual interactions across
the full image. LPOSS+ achieves state-of-the-art performance among
training-free methods, across a diverse set of datasets. Code:
https://github.com/vladan-stojnic/LPOSSSummary
AI-Generated Summary