Modelli Discriminativi di Diffusione come Apprendenti Few-shot per Visione e Linguaggio
Discriminative Diffusion Models as Few-shot Vision and Language Learners
May 18, 2023
Autori: Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang
cs.AI
Abstract
I modelli di diffusione, come Stable Diffusion, hanno dimostrato prestazioni incredibili nella generazione di immagini da testo. Poiché la generazione di immagini da testo spesso richiede ai modelli di creare concetti visivi con dettagli e attributi specificati in modo granulare nei prompt testuali, possiamo sfruttare le potenti rappresentazioni apprese dai modelli di diffusione pre-addestrati per compiti discriminativi come l'abbinamento immagine-testo? Per rispondere a questa domanda, proponiamo un approccio innovativo, Discriminative Stable Diffusion (DSD), che trasforma i modelli di diffusione pre-addestrati per la generazione di immagini da testo in apprendenti discriminativi few-shot. Il nostro approccio utilizza il punteggio di cross-attention di un modello Stable Diffusion per catturare l'influenza reciproca tra informazioni visive e testuali e affina il modello tramite l'apprendimento di prompt basato sull'attenzione per eseguire l'abbinamento immagine-testo. Confrontando DSD con i metodi all'avanguardia su diversi dataset di benchmark, dimostriamo il potenziale dell'utilizzo di modelli di diffusione pre-addestrati per compiti discriminativi, ottenendo risultati superiori nell'abbinamento immagine-testo few-shot.
English
Diffusion models, such as Stable Diffusion, have shown incredible performance
on text-to-image generation. Since text-to-image generation often requires
models to generate visual concepts with fine-grained details and attributes
specified in text prompts, can we leverage the powerful representations learned
by pre-trained diffusion models for discriminative tasks such as image-text
matching? To answer this question, we propose a novel approach, Discriminative
Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models
into few-shot discriminative learners. Our approach uses the cross-attention
score of a Stable Diffusion model to capture the mutual influence between
visual and textual information and fine-tune the model via attention-based
prompt learning to perform image-text matching. By comparing DSD with
state-of-the-art methods on several benchmark datasets, we demonstrate the
potential of using pre-trained diffusion models for discriminative tasks with
superior results on few-shot image-text matching.