Ripensare l'FID: Verso una Metrica di Valutazione Migliore per la Generazione di Immagini

Abstract

Come per molti problemi di apprendimento automatico, il progresso dei metodi di generazione di immagini dipende da buone metriche di valutazione. Una delle più popolari è la Distanza di Fréchet Inception (FID). La FID stima la distanza tra una distribuzione di caratteristiche Inception-v3 di immagini reali e quelle di immagini generate dall'algoritmo. Evidenziamo importanti limiti della FID: la scarsa rappresentazione di Inception del contenuto ricco e vario generato dai moderni modelli testo-immagine, le ipotesi di normalità errate e la scarsa complessità campionaria. Sollecitiamo una rivalutazione dell'uso della FID come metrica primaria di qualità per le immagini generate. Dimostriamo empiricamente che la FID contraddice i valutatori umani, non riflette il miglioramento graduale dei modelli testo-immagine iterativi, non cattura i livelli di distorsione e produce risultati inconsistenti quando si varia la dimensione del campione. Proponiamo inoltre una nuova metrica alternativa, CMMD, basata su embedding CLIP più ricchi e sulla distanza di massima discrepanza media con il kernel RBF gaussiano. Si tratta di uno stimatore non distorto che non fa alcuna ipotesi sulla distribuzione di probabilità degli embedding ed è efficiente dal punto di vista campionario. Attraverso esperimenti e analisi approfonditi, dimostriamo che le valutazioni basate sulla FID dei modelli testo-immagine possono essere inaffidabili e che la CMMD offre una valutazione più robusta e affidabile della qualità delle immagini.

English

As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality.

Ripensare l'FID: Verso una Metrica di Valutazione Migliore per la Generazione di Immagini

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

Abstract

Support