LPOSS: Распространение меток по патчам и пикселям для семантической сегментации с открытым словарём

Аннотация

Мы предлагаем метод для семантической сегментации с открытым словарём, не требующий обучения, с использованием моделей, объединяющих зрение и язык (Vision-and-Language Models, VLMs). Наш подход улучшает начальные предсказания на уровне отдельных патчей, полученные с помощью VLMs, за счёт распространения меток, которое совместно оптимизирует предсказания, учитывая отношения между патчами. Поскольку VLMs в основном оптимизированы для кросс-модального согласования, а не для внутримодального сходства, мы используем модель зрения (Vision Model, VM), которая, как было замечено, лучше захватывает такие отношения. Мы устраняем ограничения разрешения, присущие патч-ориентированным энкодерам, применяя распространение меток на уровне пикселей в качестве этапа уточнения, что значительно повышает точность сегментации вблизи границ классов. Наш метод, названный LPOSS+, выполняет вывод на всём изображении, избегая обработки по окнам и тем самым учитывая контекстные взаимодействия по всему изображению. LPOSS+ демонстрирует наилучшие результаты среди методов, не требующих обучения, на разнообразных наборах данных. Код: https://github.com/vladan-stojnic/LPOSS

English

We propose a training-free method for open-vocabulary semantic segmentation using Vision-and-Language Models (VLMs). Our approach enhances the initial per-patch predictions of VLMs through label propagation, which jointly optimizes predictions by incorporating patch-to-patch relationships. Since VLMs are primarily optimized for cross-modal alignment and not for intra-modal similarity, we use a Vision Model (VM) that is observed to better capture these relationships. We address resolution limitations inherent to patch-based encoders by applying label propagation at the pixel level as a refinement step, significantly improving segmentation accuracy near class boundaries. Our method, called LPOSS+, performs inference over the entire image, avoiding window-based processing and thereby capturing contextual interactions across the full image. LPOSS+ achieves state-of-the-art performance among training-free methods, across a diverse set of datasets. Code: https://github.com/vladan-stojnic/LPOSS

LPOSS: Распространение меток по патчам и пикселям для семантической сегментации с открытым словарём

LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation

Аннотация

Support