ChatPaper.aiChatPaper

Diskriminative Diffusionsmodelle als Few-Shot-Vision- und Sprachlerner

Discriminative Diffusion Models as Few-shot Vision and Language Learners

May 18, 2023
Autoren: Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang
cs.AI

Zusammenfassung

Diffusionsmodelle wie Stable Diffusion haben eine beeindruckende Leistung bei der Text-zu-Bild-Generierung gezeigt. Da die Text-zu-Bild-Generierung oft erfordert, dass Modelle visuelle Konzepte mit fein abgestuften Details und Attributen, die in Textprompts spezifiziert sind, generieren, stellt sich die Frage, ob wir die leistungsstarken Repräsentationen, die von vortrainierten Diffusionsmodellen gelernt wurden, für diskriminative Aufgaben wie Bild-Text-Abgleich nutzen können. Um diese Frage zu beantworten, schlagen wir einen neuartigen Ansatz vor, Discriminative Stable Diffusion (DSD), der vortrainierte Text-zu-Bild-Diffusionsmodelle in Few-Shot-diskriminative Lerner umwandelt. Unser Ansatz verwendet den Cross-Attention-Score eines Stable Diffusion-Modells, um die gegenseitige Beeinflussung zwischen visuellen und textuellen Informationen zu erfassen, und feintunt das Modell durch aufmerksamkeitsbasiertes Prompt-Learning, um Bild-Text-Abgleich durchzuführen. Durch den Vergleich von DSD mit state-of-the-art Methoden auf mehreren Benchmark-Datensätzen zeigen wir das Potenzial der Verwendung vortrainierter Diffusionsmodelle für diskriminative Aufgaben mit überlegenen Ergebnissen beim Few-Shot-Bild-Text-Abgleich.
English
Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching.
PDF30December 15, 2024