Modelos Discriminativos de Difusão como Aprendizes de Visão e Linguagem com Poucos Exemplos

Resumo

Modelos de difusão, como o Stable Diffusion, têm demonstrado desempenho incrível na geração de imagens a partir de texto. Como a geração de imagens a partir de texto frequentemente exige que os modelos gerem conceitos visuais com detalhes refinados e atributos especificados em prompts textuais, podemos aproveitar as poderosas representações aprendidas por modelos de difusão pré-treinados para tarefas discriminativas, como a correspondência entre imagem e texto? Para responder a essa pergunta, propomos uma nova abordagem, o Stable Diffusion Discriminativo (DSD), que transforma modelos de difusão pré-treinados para geração de imagens a partir de texto em aprendizes discriminativos de poucos exemplos. Nossa abordagem utiliza o score de atenção cruzada de um modelo Stable Diffusion para capturar a influência mútua entre informações visuais e textuais e ajusta o modelo por meio de aprendizado de prompts baseado em atenção para realizar a correspondência entre imagem e texto. Ao comparar o DSD com métodos state-of-the-art em vários conjuntos de dados de referência, demonstramos o potencial de usar modelos de difusão pré-treinados para tarefas discriminativas, com resultados superiores na correspondência entre imagem e texto com poucos exemplos.

English

Diffusion models, such as Stable Diffusion, have shown incredible performance on text-to-image generation. Since text-to-image generation often requires models to generate visual concepts with fine-grained details and attributes specified in text prompts, can we leverage the powerful representations learned by pre-trained diffusion models for discriminative tasks such as image-text matching? To answer this question, we propose a novel approach, Discriminative Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models into few-shot discriminative learners. Our approach uses the cross-attention score of a Stable Diffusion model to capture the mutual influence between visual and textual information and fine-tune the model via attention-based prompt learning to perform image-text matching. By comparing DSD with state-of-the-art methods on several benchmark datasets, we demonstrate the potential of using pre-trained diffusion models for discriminative tasks with superior results on few-shot image-text matching.

Modelos Discriminativos de Difusão como Aprendizes de Visão e Linguagem com Poucos Exemplos

Discriminative Diffusion Models as Few-shot Vision and Language Learners

Resumo

Support