ChatPaper.aiChatPaper

Replanteando el FID: Hacia una mejor métrica de evaluación para la generación de imágenes

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

November 30, 2023
Autores: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
cs.AI

Resumen

Como ocurre con muchos problemas de aprendizaje automático, el progreso de los métodos de generación de imágenes depende de buenas métricas de evaluación. Una de las más populares es la Distancia de Fréchet Inception (FID). FID estima la distancia entre una distribución de características de Inception-v3 de imágenes reales y las de imágenes generadas por el algoritmo. Destacamos importantes limitaciones de FID: la pobre representación de Inception del contenido rico y variado generado por los modelos modernos de texto a imagen, las suposiciones incorrectas de normalidad y la pobre complejidad muestral. Hacemos un llamado a reevaluar el uso de FID como la métrica principal de calidad para imágenes generadas. Demostramos empíricamente que FID contradice a los evaluadores humanos, no refleja la mejora gradual de los modelos iterativos de texto a imagen, no captura los niveles de distorsión y produce resultados inconsistentes al variar el tamaño de la muestra. También proponemos una nueva métrica alternativa, CMMD, basada en embeddings más ricos de CLIP y la distancia de discrepancia máxima de media con el kernel RBF gaussiano. Es un estimador insesgado que no hace suposiciones sobre la distribución de probabilidad de los embeddings y es eficiente en muestras. A través de extensos experimentos y análisis, demostramos que las evaluaciones basadas en FID de modelos de texto a imagen pueden ser poco confiables, y que CMMD ofrece una evaluación más robusta y fiable de la calidad de las imágenes.
English
As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality.
PDF182December 15, 2024