Дискриминативные диффузионные модели как малообучаемые системы для задач зрения и обработки языка

Аннотация

Диффузионные модели, такие как Stable Diffusion, продемонстрировали впечатляющие результаты в задаче генерации изображений по тексту. Поскольку генерация изображений по тексту часто требует от моделей создания визуальных концепций с детализированными атрибутами, указанными в текстовых запросах, возникает вопрос: можно ли использовать мощные представления, изученные предобученными диффузионными моделями, для дискриминативных задач, таких как сопоставление изображений и текста? Чтобы ответить на этот вопрос, мы предлагаем новый подход — Discriminative Stable Diffusion (DSD), который превращает предобученные диффузионные модели для генерации изображений по тексту в модели, способные обучаться дискриминативным задачам с малым количеством примеров. Наш подход использует оценку кросс-внимания модели Stable Diffusion для захвата взаимного влияния визуальной и текстовой информации и дообучает модель с помощью обучения на основе подсказок (prompt learning) для выполнения задачи сопоставления изображений и текста. Сравнивая DSD с современными методами на нескольких эталонных наборах данных, мы демонстрируем потенциал использования предобученных диффузионных моделей для дискриминативных задач, показывая превосходные результаты в задаче сопоставления изображений и текста с малым количеством примеров.

English

Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching.

Дискриминативные диффузионные модели как малообучаемые системы для задач зрения и обработки языка

Discriminative Diffusion Models as Few-shot Vision and Language Learners

Аннотация

Support