Modelos de Difusión Discriminativos como Aprendices de Visión y Lenguaje con Pocos Ejemplos
Discriminative Diffusion Models as Few-shot Vision and Language Learners
May 18, 2023
Autores: Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang
cs.AI
Resumen
Los modelos de difusión, como Stable Diffusion, han demostrado un rendimiento increíble en la generación de imágenes a partir de texto. Dado que la generación de imágenes a partir de texto a menudo requiere que los modelos generen conceptos visuales con detalles y atributos específicos indicados en los prompts de texto, ¿podemos aprovechar las representaciones poderosas aprendidas por los modelos de difusión preentrenados para tareas discriminativas, como la correspondencia entre imágenes y texto? Para responder a esta pregunta, proponemos un enfoque novedoso, Discriminative Stable Diffusion (DSD), que convierte los modelos de difusión preentrenados para generación de imágenes a partir de texto en aprendices discriminativos de pocos ejemplos. Nuestro enfoque utiliza la puntuación de atención cruzada de un modelo Stable Diffusion para capturar la influencia mutua entre la información visual y textual, y ajusta el modelo mediante el aprendizaje de prompts basado en atención para realizar la correspondencia entre imágenes y texto. Al comparar DSD con métodos de vanguardia en varios conjuntos de datos de referencia, demostramos el potencial de utilizar modelos de difusión preentrenados para tareas discriminativas, obteniendo resultados superiores en la correspondencia entre imágenes y texto con pocos ejemplos.
English
Diffusion models, such as Stable Diffusion, have shown incredible performance
on text-to-image generation. Since text-to-image generation often requires
models to generate visual concepts with fine-grained details and attributes
specified in text prompts, can we leverage the powerful representations learned
by pre-trained diffusion models for discriminative tasks such as image-text
matching? To answer this question, we propose a novel approach, Discriminative
Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models
into few-shot discriminative learners. Our approach uses the cross-attention
score of a Stable Diffusion model to capture the mutual influence between
visual and textual information and fine-tune the model via attention-based
prompt learning to perform image-text matching. By comparing DSD with
state-of-the-art methods on several benchmark datasets, we demonstrate the
potential of using pre-trained diffusion models for discriminative tasks with
superior results on few-shot image-text matching.