Модели диффузии для сегментации с нулевым обучением и открытым словарём
Diffusion Models for Zero-Shot Open-Vocabulary Segmentation
June 15, 2023
Авторы: Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht
cs.AI
Аннотация
Разнообразие объектов в реальном мире практически безгранично, что делает невозможным их охват с помощью моделей, обученных на фиксированном наборе категорий. В результате в последние годы методы с открытым словарем привлекли внимание научного сообщества. В данной статье предлагается новый метод для сегментации с нулевым обучением и открытым словарем. Предыдущие работы в основном полагаются на контрастное обучение с использованием пар изображение-текст, применяя механизмы группировки для изучения признаков изображений, которые одновременно согласованы с языком и хорошо локализованы. Однако это может вносить неоднозначность, так как визуальный облик изображений с похожими описаниями часто варьируется. Вместо этого мы используем генеративные свойства крупномасштабных диффузионных моделей "текст-изображение" для выборки набора опорных изображений для заданной текстовой категории. Это позволяет получить распределение внешних видов для заданного текста, обходя проблему неоднозначности. Мы также предлагаем механизм, который учитывает контекстный фон выбранных изображений для более точной локализации объектов и непосредственной сегментации фона. Мы показываем, что наш метод может быть использован для привязки нескольких предварительно обученных самообучаемых экстракторов признаков к естественному языку и предоставления объяснимых предсказаний путем отображения на регионы в наборе опорных изображений. Наше предложение не требует обучения, полагаясь исключительно на предварительно обученные компоненты, однако демонстрирует высокую производительность на ряде бенчмарков для сегментации с открытым словарем, достигая преимущества более чем в 10% на бенчмарке Pascal VOC.
English
The variety of objects in the real world is nearly unlimited and is thus
impossible to capture using models trained on a fixed set of categories. As a
result, in recent years, open-vocabulary methods have attracted the interest of
the community. This paper proposes a new method for zero-shot open-vocabulary
segmentation. Prior work largely relies on contrastive training using
image-text pairs, leveraging grouping mechanisms to learn image features that
are both aligned with language and well-localised. This however can introduce
ambiguity as the visual appearance of images with similar captions often
varies. Instead, we leverage the generative properties of large-scale
text-to-image diffusion models to sample a set of support images for a given
textual category. This provides a distribution of appearances for a given text
circumventing the ambiguity problem. We further propose a mechanism that
considers the contextual background of the sampled images to better localise
objects and segment the background directly. We show that our method can be
used to ground several existing pre-trained self-supervised feature extractors
in natural language and provide explainable predictions by mapping back to
regions in the support set. Our proposal is training-free, relying on
pre-trained components only, yet, shows strong performance on a range of
open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on
the Pascal VOC benchmark.