Дискриминативные диффузионные модели как малообучаемые системы для задач зрения и обработки языка
Discriminative Diffusion Models as Few-shot Vision and Language Learners
May 18, 2023
Авторы: Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang
cs.AI
Аннотация
Диффузионные модели, такие как Stable Diffusion, продемонстрировали впечатляющие результаты в задаче генерации изображений по тексту. Поскольку генерация изображений по тексту часто требует от моделей создания визуальных концепций с детализированными атрибутами, указанными в текстовых запросах, возникает вопрос: можно ли использовать мощные представления, изученные предобученными диффузионными моделями, для дискриминативных задач, таких как сопоставление изображений и текста? Чтобы ответить на этот вопрос, мы предлагаем новый подход — Discriminative Stable Diffusion (DSD), который превращает предобученные диффузионные модели для генерации изображений по тексту в модели, способные обучаться дискриминативным задачам с малым количеством примеров. Наш подход использует оценку кросс-внимания модели Stable Diffusion для захвата взаимного влияния визуальной и текстовой информации и дообучает модель с помощью обучения на основе подсказок (prompt learning) для выполнения задачи сопоставления изображений и текста. Сравнивая DSD с современными методами на нескольких эталонных наборах данных, мы демонстрируем потенциал использования предобученных диффузионных моделей для дискриминативных задач, показывая превосходные результаты в задаче сопоставления изображений и текста с малым количеством примеров.
English
Diffusion models, such as Stable Diffusion, have shown incredible performance
on text-to-image generation. Since text-to-image generation often requires
models to generate visual concepts with fine-grained details and attributes
specified in text prompts, can we leverage the powerful representations learned
by pre-trained diffusion models for discriminative tasks such as image-text
matching? To answer this question, we propose a novel approach, Discriminative
Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models
into few-shot discriminative learners. Our approach uses the cross-attention
score of a Stable Diffusion model to capture the mutual influence between
visual and textual information and fine-tune the model via attention-based
prompt learning to perform image-text matching. By comparing DSD with
state-of-the-art methods on several benchmark datasets, we demonstrate the
potential of using pre-trained diffusion models for discriminative tasks with
superior results on few-shot image-text matching.