ChatPaper.aiChatPaper

Repensando o FID: Rumo a uma Métrica de Avaliação Melhor para Geração de Imagens

Rethinking FID: Towards a Better Evaluation Metric for Image Generation

November 30, 2023
Autores: Sadeep Jayasumana, Srikumar Ramalingam, Andreas Veit, Daniel Glasner, Ayan Chakrabarti, Sanjiv Kumar
cs.AI

Resumo

Como em muitos problemas de aprendizado de máquina, o progresso dos métodos de geração de imagens depende de boas métricas de avaliação. Uma das mais populares é a Distância de Fréchet Inception (FID). A FID estima a distância entre uma distribuição de características do Inception-v3 de imagens reais e aquelas de imagens geradas pelo algoritmo. Destacamos importantes desvantagens da FID: a representação inadequada do Inception para o conteúdo rico e variado gerado por modelos modernos de texto para imagem, suposições incorretas de normalidade e a complexidade amostral deficiente. Defendemos uma reavaliação do uso da FID como a métrica primária de qualidade para imagens geradas. Demonstramos empiricamente que a FID contradiz avaliadores humanos, não reflete a melhoria gradual de modelos iterativos de texto para imagem, não captura níveis de distorção e produz resultados inconsistentes ao variar o tamanho da amostra. Também propomos uma nova métrica alternativa, CMMD, baseada em embeddings mais ricos do CLIP e na distância de discrepância máxima de média com o kernel RBF gaussiano. É um estimador não enviesado que não faz suposições sobre a distribuição de probabilidade dos embeddings e é eficiente em termos de amostragem. Por meio de extensos experimentos e análises, demonstramos que as avaliações baseadas em FID de modelos de texto para imagem podem ser pouco confiáveis, e que a CMMD oferece uma avaliação mais robusta e confiável da qualidade da imagem.
English
As with many machine learning problems, the progress of image generation methods hinges on good evaluation metrics. One of the most popular is the Frechet Inception Distance (FID). FID estimates the distance between a distribution of Inception-v3 features of real images, and those of images generated by the algorithm. We highlight important drawbacks of FID: Inception's poor representation of the rich and varied content generated by modern text-to-image models, incorrect normality assumptions, and poor sample complexity. We call for a reevaluation of FID's use as the primary quality metric for generated images. We empirically demonstrate that FID contradicts human raters, it does not reflect gradual improvement of iterative text-to-image models, it does not capture distortion levels, and that it produces inconsistent results when varying the sample size. We also propose an alternative new metric, CMMD, based on richer CLIP embeddings and the maximum mean discrepancy distance with the Gaussian RBF kernel. It is an unbiased estimator that does not make any assumptions on the probability distribution of the embeddings and is sample efficient. Through extensive experiments and analysis, we demonstrate that FID-based evaluations of text-to-image models may be unreliable, and that CMMD offers a more robust and reliable assessment of image quality.
PDF172December 15, 2024