Discriminatieve Diffusiemodellen als Few-shot Vision- en Taalleerders
Discriminative Diffusion Models as Few-shot Vision and Language Learners
May 18, 2023
Auteurs: Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang
cs.AI
Samenvatting
Diffusiemodellen, zoals Stable Diffusion, hebben indrukwekkende prestaties getoond bij tekst-naar-beeldgeneratie. Aangezien tekst-naar-beeldgeneratie vaak vereist dat modellen visuele concepten genereren met fijnmazige details en attributen die in tekstprompts zijn gespecificeerd, kunnen we de krachtige representaties die door vooraf getrainde diffusiemodellen zijn geleerd, benutten voor discriminerende taken zoals beeld-tekstmatching? Om deze vraag te beantwoorden, stellen we een nieuwe aanpak voor, Discriminative Stable Diffusion (DSD), die vooraf getrainde tekst-naar-beeld diffusiemodellen omzet in few-shot discriminerende leermodellen. Onze aanpak gebruikt de cross-attention score van een Stable Diffusion-model om de wederzijdse invloed tussen visuele en tekstuele informatie vast te leggen en fine-tunt het model via attention-gebaseerd promptleren om beeld-tekstmatching uit te voeren. Door DSD te vergelijken met state-of-the-art methoden op verschillende benchmarkdatasets, demonstreren we het potentieel van het gebruik van vooraf getrainde diffusiemodellen voor discriminerende taken met superieure resultaten op few-shot beeld-tekstmatching.
English
Diffusion models, such as Stable Diffusion, have shown incredible performance
on text-to-image generation. Since text-to-image generation often requires
models to generate visual concepts with fine-grained details and attributes
specified in text prompts, can we leverage the powerful representations learned
by pre-trained diffusion models for discriminative tasks such as image-text
matching? To answer this question, we propose a novel approach, Discriminative
Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models
into few-shot discriminative learners. Our approach uses the cross-attention
score of a Stable Diffusion model to capture the mutual influence between
visual and textual information and fine-tune the model via attention-based
prompt learning to perform image-text matching. By comparing DSD with
state-of-the-art methods on several benchmark datasets, we demonstrate the
potential of using pre-trained diffusion models for discriminative tasks with
superior results on few-shot image-text matching.