Discriminatieve Diffusiemodellen als Few-shot Vision- en Taalleerders

Samenvatting

Diffusiemodellen, zoals Stable Diffusion, hebben indrukwekkende prestaties getoond bij tekst-naar-beeldgeneratie. Aangezien tekst-naar-beeldgeneratie vaak vereist dat modellen visuele concepten genereren met fijnmazige details en attributen die in tekstprompts zijn gespecificeerd, kunnen we de krachtige representaties die door vooraf getrainde diffusiemodellen zijn geleerd, benutten voor discriminerende taken zoals beeld-tekstmatching? Om deze vraag te beantwoorden, stellen we een nieuwe aanpak voor, Discriminative Stable Diffusion (DSD), die vooraf getrainde tekst-naar-beeld diffusiemodellen omzet in few-shot discriminerende leermodellen. Onze aanpak gebruikt de cross-attention score van een Stable Diffusion-model om de wederzijdse invloed tussen visuele en tekstuele informatie vast te leggen en fine-tunt het model via attention-gebaseerd promptleren om beeld-tekstmatching uit te voeren. Door DSD te vergelijken met state-of-the-art methoden op verschillende benchmarkdatasets, demonstreren we het potentieel van het gebruik van vooraf getrainde diffusiemodellen voor discriminerende taken met superieure resultaten op few-shot beeld-tekstmatching.

English

Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching.

Discriminatieve Diffusiemodellen als Few-shot Vision- en Taalleerders

Discriminative Diffusion Models as Few-shot Vision and Language Learners

Samenvatting

Support