ChatPaper.aiChatPaper

Heroverweging van FID: Op weg naar een betere evaluatiemetriek voor beeldgeneratie

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

November 30, 2023
Auteurs: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
cs.AI

Samenvatting

Net als bij veel machine learning-problemen hangt de vooruitgang van methoden voor beeldgeneratie af van goede evaluatiemetrics. Een van de meest populaire is de Frechet Inception Distance (FID). FID schat de afstand tussen een verdeling van Inception-v3-features van echte afbeeldingen en die van afbeeldingen die door het algoritme zijn gegenereerd. We belichten belangrijke tekortkomingen van FID: de slechte representatie door Inception van de rijke en gevarieerde inhoud die door moderne tekst-naar-beeldmodellen wordt gegenereerd, onjuiste normaliteitsaannames en slechte steekproefcomplexiteit. We pleiten voor een herziening van het gebruik van FID als primaire kwaliteitsmetric voor gegenereerde afbeeldingen. We tonen empirisch aan dat FID in tegenspraak is met menselijke beoordelaars, dat het geen geleidelijke verbetering van iteratieve tekst-naar-beeldmodellen weerspiegelt, dat het vervormingsniveaus niet vastlegt en dat het inconsistente resultaten oplevert bij het variëren van de steekproefgrootte. We stellen ook een nieuwe alternatieve metric voor, CMMD, gebaseerd op rijkere CLIP-embeddings en de maximale gemiddelde discrepantie-afstand met de Gaussische RBF-kernel. Het is een zuivere schatter die geen aannames doet over de kansverdeling van de embeddings en efficiënt is wat betreft steekproeven. Door uitgebreide experimenten en analyses tonen we aan dat FID-gebaseerde evaluaties van tekst-naar-beeldmodellen onbetrouwbaar kunnen zijn, en dat CMMD een robuustere en betrouwbaardere beoordeling van beeldkwaliteit biedt.
English
As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality.
PDF172December 15, 2024