ChatPaper.aiChatPaper

SelfEval: Benutten van het discriminerende karakter van generatieve modellen voor evaluatie

SelfEval: Leveraging the discriminative nature of generative models for evaluation

November 17, 2023
Auteurs: Sai Saketh Rambhatla, Ishan Misra
cs.AI

Samenvatting

In dit werk tonen we aan dat tekst-naar-beeld generatieve modellen 'geïnverteerd' kunnen worden om hun eigen tekst-beeld begripsvaardigheden op een volledig geautomatiseerde manier te beoordelen. Onze methode, genaamd SelfEval, gebruikt het generatieve model om de waarschijnlijkheid van echte afbeeldingen gegeven tekstprompts te berekenen, waardoor het generatieve model direct toepasbaar wordt op discriminerende taken. Met SelfEval hergebruiken we standaarddatasets die zijn gemaakt voor het evalueren van multimodale tekst-beeld discriminerende modellen om generatieve modellen op een fijnmazige manier te evalueren: we beoordelen hun prestaties op attribuutbinding, kleurherkenning, tellen, vormherkenning en ruimtelijk begrip. Voor zover wij weten is SelfEval de eerste geautomatiseerde metriek die een hoge mate van overeenstemming vertoont voor het meten van tekstgetrouwheid in vergelijking met de gouden standaard van menselijke evaluaties, over meerdere modellen en benchmarks heen. Bovendien stelt SelfEval ons in staat om generatieve modellen te evalueren op uitdagende taken zoals Winoground image-score, waar ze competitieve prestaties laten zien ten opzichte van discriminerende modellen. We laten ook ernstige tekortkomingen zien van standaard geautomatiseerde metrieken zoals CLIP-score om tekstgetrouwheid te meten op benchmarks zoals DrawBench, en hoe SelfEval deze problemen omzeilt. We hopen dat SelfEval een eenvoudige en betrouwbare geautomatiseerde evaluatie mogelijk maakt voor diffusiemodellen.
English
In this work, we show that text-to-image generative models can be 'inverted' to assess their own text-image understanding capabilities in a completely automated manner. Our method, called SelfEval, uses the generative model to compute the likelihood of real images given text prompts, making the generative model directly applicable to discriminative tasks. Using SelfEval, we repurpose standard datasets created for evaluating multimodal text-image discriminative models to evaluate generative models in a fine-grained manner: assessing their performance on attribute binding, color recognition, counting, shape recognition, spatial understanding. To the best of our knowledge SelfEval is the first automated metric to show a high degree of agreement for measuring text-faithfulness with the gold-standard human evaluations across multiple models and benchmarks. Moreover, SelfEval enables us to evaluate generative models on challenging tasks such as Winoground image-score where they demonstrate competitive performance to discriminative models. We also show severe drawbacks of standard automated metrics such as CLIP-score to measure text faithfulness on benchmarks such as DrawBench, and how SelfEval sidesteps these issues. We hope SelfEval enables easy and reliable automated evaluation for diffusion models.
PDF170December 15, 2024