ChatPaper.aiChatPaper

Neubewertung von FID: Auf dem Weg zu einer besseren Bewertungsmetrik für die Bildgenerierung

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

November 30, 2023
Autoren: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
cs.AI

Zusammenfassung

Wie bei vielen Problemen des maschinellen Lernens hängt der Fortschritt bei Bildgenerierungsmethoden von guten Evaluationsmetriken ab. Eine der bekanntesten ist die Frechet Inception Distance (FID). FID schätzt die Distanz zwischen einer Verteilung von Inception-v3-Merkmalen realer Bilder und denen von Bildern, die durch den Algorithmus generiert wurden. Wir heben wichtige Nachteile von FID hervor: die unzureichende Darstellung des reichhaltigen und vielfältigen Inhalts, der von modernen Text-zu-Bild-Modellen erzeugt wird, durch Inception, falsche Normalitätsannahmen und eine schlechte Stichprobenkomplexität. Wir fordern eine Neubewertung der Verwendung von FID als primäre Qualitätsmetrik für generierte Bilder. Wir zeigen empirisch, dass FID im Widerspruch zu menschlichen Bewertungen steht, keine graduellen Verbesserungen iterativer Text-zu-Bild-Modelle widerspiegelt, Verzerrungsniveaus nicht erfasst und bei variierender Stichprobengröße inkonsistente Ergebnisse liefert. Wir schlagen außerdem eine neue alternative Metrik vor, CMMD, die auf reichhaltigeren CLIP-Embeddings und der Maximum Mean Discrepancy-Distanz mit dem Gaußschen RBF-Kernel basiert. Es handelt sich um einen unverzerrten Schätzer, der keine Annahmen über die Wahrscheinlichkeitsverteilung der Embeddings macht und stichprobeneffizient ist. Durch umfangreiche Experimente und Analysen zeigen wir, dass FID-basierte Bewertungen von Text-zu-Bild-Modellen unzuverlässig sein können und dass CMMD eine robustere und zuverlässigere Bewertung der Bildqualität bietet.
English
As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality.
PDF182December 15, 2024