Modèles de diffusion discriminatifs comme apprenants peu supervisés en vision et langage
Discriminative Diffusion Models as Few-shot Vision and Language Learners
May 18, 2023
Auteurs: Xuehai He, Weixi Feng, Tsu-Jui Fu, Varun Jampani, Arjun Akula, Pradyumna Narayana, Sugato Basu, William Yang Wang, Xin Eric Wang
cs.AI
Résumé
Les modèles de diffusion, tels que Stable Diffusion, ont démontré des performances impressionnantes dans la génération d'images à partir de texte. Étant donné que la génération d'images à partir de texte nécessite souvent que les modèles produisent des concepts visuels avec des détails et des attributs précis spécifiés dans les prompts textuels, pouvons-nous exploiter les représentations puissantes apprises par les modèles de diffusion pré-entraînés pour des tâches discriminatives telles que l'appariement image-texte ? Pour répondre à cette question, nous proposons une nouvelle approche, Discriminative Stable Diffusion (DSD), qui transforme les modèles de diffusion pré-entraînés pour la génération d'images à partir de texte en apprenants discriminatifs à few-shot. Notre approche utilise le score d'attention croisée d'un modèle Stable Diffusion pour capturer l'influence mutuelle entre les informations visuelles et textuelles, et affine le modèle via un apprentissage de prompts basé sur l'attention pour effectuer l'appariement image-texte. En comparant DSD avec les méthodes de pointe sur plusieurs ensembles de données de référence, nous démontrons le potentiel d'utilisation des modèles de diffusion pré-entraînés pour des tâches discriminatives, avec des résultats supérieurs en appariement image-texte à few-shot.
English
Diffusion models, such as Stable Diffusion, have shown incredible performance
on text-to-image generation. Since text-to-image generation often requires
models to generate visual concepts with fine-grained details and attributes
specified in text prompts, can we leverage the powerful representations learned
by pre-trained diffusion models for discriminative tasks such as image-text
matching? To answer this question, we propose a novel approach, Discriminative
Stable Diffusion (DSD), which turns pre-trained text-to-image diffusion models
into few-shot discriminative learners. Our approach uses the cross-attention
score of a Stable Diffusion model to capture the mutual influence between
visual and textual information and fine-tune the model via attention-based
prompt learning to perform image-text matching. By comparing DSD with
state-of-the-art methods on several benchmark datasets, we demonstrate the
potential of using pre-trained diffusion models for discriminative tasks with
superior results on few-shot image-text matching.