SelfEval : Exploiter la nature discriminative des modèles génératifs pour l'évaluation
SelfEval: Leveraging the discriminative nature of generative models for evaluation
November 17, 2023
Auteurs: Sai Saketh Rambhatla, Ishan Misra
cs.AI
Résumé
Dans ce travail, nous démontrons que les modèles génératifs texte-image peuvent être « inversés » pour évaluer leurs propres capacités de compréhension texte-image de manière entièrement automatisée.
Notre méthode, appelée SelfEval, utilise le modèle génératif pour calculer la vraisemblance d'images réelles étant donné des prompts textuels, rendant ainsi le modèle génératif directement applicable à des tâches discriminatives.
En utilisant SelfEval, nous réutilisons des jeux de données standard conçus pour évaluer les modèles discriminatifs multimodaux texte-image afin d'évaluer les modèles génératifs de manière fine : en mesurant leurs performances sur la liaison d'attributs, la reconnaissance de couleurs, le décompte, la reconnaissance de formes et la compréhension spatiale.
À notre connaissance, SelfEval est la première métrique automatisée à montrer un degré élevé de concordance avec les évaluations humaines de référence pour mesurer la fidélité au texte, et ce sur plusieurs modèles et benchmarks.
De plus, SelfEval nous permet d'évaluer les modèles génératifs sur des tâches complexes comme le score d'image Winoground, où ils démontrent des performances compétitives par rapport aux modèles discriminatifs.
Nous mettons également en évidence les limites sévères des métriques automatisées standard telles que le CLIP-score pour mesurer la fidélité au texte sur des benchmarks comme DrawBench, et comment SelfEval contourne ces problèmes.
Nous espérons que SelfEval permettra une évaluation automatisée facile et fiable pour les modèles de diffusion.
English
In this work, we show that text-to-image generative models can be 'inverted'
to assess their own text-image understanding capabilities in a completely
automated manner.
Our method, called SelfEval, uses the generative model to compute the
likelihood of real images given text prompts, making the generative model
directly applicable to discriminative tasks.
Using SelfEval, we repurpose standard datasets created for evaluating
multimodal text-image discriminative models to evaluate generative models in a
fine-grained manner: assessing their performance on attribute binding, color
recognition, counting, shape recognition, spatial understanding.
To the best of our knowledge SelfEval is the first automated metric to show a
high degree of agreement for measuring text-faithfulness with the gold-standard
human evaluations across multiple models and benchmarks.
Moreover, SelfEval enables us to evaluate generative models on challenging
tasks such as Winoground image-score where they demonstrate competitive
performance to discriminative models.
We also show severe drawbacks of standard automated metrics such as
CLIP-score to measure text faithfulness on benchmarks such as DrawBench, and
how SelfEval sidesteps these issues.
We hope SelfEval enables easy and reliable automated evaluation for diffusion
models.