Переосмысление FID: на пути к более совершенной метрике оценки генерации изображений
Rethinking FID: Towards a Better Evaluation Metric for Image Generation
November 30, 2023
Авторы: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
cs.AI
Аннотация
Как и во многих задачах машинного обучения, прогресс в методах генерации изображений зависит от наличия качественных метрик оценки. Одной из самых популярных является расстояние Фреше (Frechet Inception Distance, FID). FID оценивает расстояние между распределением признаков Inception-v3 для реальных изображений и изображений, сгенерированных алгоритмом. Мы выделяем важные недостатки FID: слабое представление Inception богатого и разнообразного контента, создаваемого современными моделями генерации изображений по тексту, некорректные предположения о нормальности и низкая эффективность по выборкам. Мы призываем пересмотреть использование FID в качестве основной метрики качества для сгенерированных изображений. Эмпирически мы демонстрируем, что FID противоречит оценкам людей, не отражает постепенного улучшения итеративных моделей генерации по тексту, не учитывает уровни искажений и дает противоречивые результаты при изменении размера выборки. Мы также предлагаем новую альтернативную метрику, CMMD, основанную на более богатых эмбеддингах CLIP и расстоянии максимального среднего расхождения (MMD) с гауссовым ядром RBF. Это несмещенная оценка, которая не делает предположений о вероятностном распределении эмбеддингов и эффективна по выборкам. В ходе обширных экспериментов и анализа мы показываем, что оценки текстово-изобразительных моделей на основе FID могут быть ненадежными, а CMMD предлагает более устойчивую и надежную оценку качества изображений.
English
As with many machine learning problems, the progress of image generation
methods hinges on good evaluation metrics. One of the most popular is the
Frechet Inception Distance (FID). FID estimates the distance between a
distribution of Inception-v3 features of real images, and those of images
generated by the algorithm. We highlight important drawbacks of FID:
Inception's poor representation of the rich and varied content generated by
modern text-to-image models, incorrect normality assumptions, and poor sample
complexity. We call for a reevaluation of FID's use as the primary quality
metric for generated images. We empirically demonstrate that FID contradicts
human raters, it does not reflect gradual improvement of iterative
text-to-image models, it does not capture distortion levels, and that it
produces inconsistent results when varying the sample size. We also propose an
alternative new metric, CMMD, based on richer CLIP embeddings and the maximum
mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased
estimator that does not make any assumptions on the probability distribution of
the embeddings and is sample efficient. Through extensive experiments and
analysis, we demonstrate that FID-based evaluations of text-to-image models may
be unreliable, and that CMMD offers a more robust and reliable assessment of
image quality.