Repenser le FID : Vers une meilleure métrique d'évaluation pour la génération d'images
Rethinking FID: Towards a Better Evaluation Metric for Image Generation
November 30, 2023
Auteurs: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
cs.AI
Résumé
Comme pour de nombreux problèmes d'apprentissage automatique, les progrès des méthodes de génération d'images reposent sur de bonnes métriques d'évaluation. L'une des plus populaires est la Distance de Fréchet Inception (FID). La FID estime la distance entre une distribution des caractéristiques Inception-v3 des images réelles et celles des images générées par l'algorithme. Nous mettons en lumière d'importants inconvénients de la FID : la mauvaise représentation par Inception du contenu riche et varié généré par les modèles modernes de texte-à-image, les hypothèses de normalité incorrectes et la faible complexité d'échantillonnage. Nous appelons à une réévaluation de l'utilisation de la FID comme métrique principale de qualité pour les images générées. Nous démontrons empiriquement que la FID contredit les évaluations humaines, qu'elle ne reflète pas l'amélioration progressive des modèles itératifs de texte-à-image, qu'elle ne capture pas les niveaux de distorsion et qu'elle produit des résultats incohérents lorsque la taille de l'échantillon varie. Nous proposons également une nouvelle métrique alternative, CMMD, basée sur des embeddings CLIP plus riches et la distance de divergence maximale des moyennes avec le noyau RBF gaussien. Il s'agit d'un estimateur non biaisé qui ne fait aucune hypothèse sur la distribution de probabilité des embeddings et qui est efficace en termes d'échantillonnage. À travers des expériences et des analyses approfondies, nous démontrons que les évaluations basées sur la FID des modèles de texte-à-image peuvent être peu fiables, et que la CMMD offre une évaluation plus robuste et fiable de la qualité des images.
English
As with many machine learning problems, the progress of image generation
methods hinges on good evaluation metrics. One of the most popular is the
Frechet Inception Distance (FID). FID estimates the distance between a
distribution of Inception-v3 features of real images, and those of images
generated by the algorithm. We highlight important drawbacks of FID:
Inception's poor representation of the rich and varied content generated by
modern text-to-image models, incorrect normality assumptions, and poor sample
complexity. We call for a reevaluation of FID's use as the primary quality
metric for generated images. We empirically demonstrate that FID contradicts
human raters, it does not reflect gradual improvement of iterative
text-to-image models, it does not capture distortion levels, and that it
produces inconsistent results when varying the sample size. We also propose an
alternative new metric, CMMD, based on richer CLIP embeddings and the maximum
mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased
estimator that does not make any assumptions on the probability distribution of
the embeddings and is sample efficient. Through extensive experiments and
analysis, we demonstrate that FID-based evaluations of text-to-image models may
be unreliable, and that CMMD offers a more robust and reliable assessment of
image quality.