Ripensare l'FID: Verso una Metrica di Valutazione Migliore per la Generazione di Immagini
Rethinking FID: Towards a Better Evaluation Metric for Image Generation
November 30, 2023
Autori: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
cs.AI
Abstract
Come per molti problemi di apprendimento automatico, il progresso dei metodi di generazione di immagini dipende da buone metriche di valutazione. Una delle più popolari è la Distanza di Fréchet Inception (FID). La FID stima la distanza tra una distribuzione di caratteristiche Inception-v3 di immagini reali e quelle di immagini generate dall'algoritmo. Evidenziamo importanti limiti della FID: la scarsa rappresentazione di Inception del contenuto ricco e vario generato dai moderni modelli testo-immagine, le ipotesi di normalità errate e la scarsa complessità campionaria. Sollecitiamo una rivalutazione dell'uso della FID come metrica primaria di qualità per le immagini generate. Dimostriamo empiricamente che la FID contraddice i valutatori umani, non riflette il miglioramento graduale dei modelli testo-immagine iterativi, non cattura i livelli di distorsione e produce risultati inconsistenti quando si varia la dimensione del campione. Proponiamo inoltre una nuova metrica alternativa, CMMD, basata su embedding CLIP più ricchi e sulla distanza di massima discrepanza media con il kernel RBF gaussiano. Si tratta di uno stimatore non distorto che non fa alcuna ipotesi sulla distribuzione di probabilità degli embedding ed è efficiente dal punto di vista campionario. Attraverso esperimenti e analisi approfonditi, dimostriamo che le valutazioni basate sulla FID dei modelli testo-immagine possono essere inaffidabili e che la CMMD offre una valutazione più robusta e affidabile della qualità delle immagini.
English
As with many machine learning problems, the progress of image generation
methods hinges on good evaluation metrics. One of the most popular is the
Frechet Inception Distance (FID). FID estimates the distance between a
distribution of Inception-v3 features of real images, and those of images
generated by the algorithm. We highlight important drawbacks of FID:
Inception's poor representation of the rich and varied content generated by
modern text-to-image models, incorrect normality assumptions, and poor sample
complexity. We call for a reevaluation of FID's use as the primary quality
metric for generated images. We empirically demonstrate that FID contradicts
human raters, it does not reflect gradual improvement of iterative
text-to-image models, it does not capture distortion levels, and that it
produces inconsistent results when varying the sample size. We also propose an
alternative new metric, CMMD, based on richer CLIP embeddings and the maximum
mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased
estimator that does not make any assumptions on the probability distribution of
the embeddings and is sample efficient. Through extensive experiments and
analysis, we demonstrate that FID-based evaluations of text-to-image models may
be unreliable, and that CMMD offers a more robust and reliable assessment of
image quality.