La lotería del FID: Cuantificación de la aleatoriedad oculta en la evaluación de modelos generativos

Resumen

La Distancia de Inception de Fréchet (FID) es el árbitro de facto en la generación de imágenes, sin embargo, la mayoría de los artículos reportan un solo número de un único modelo entrenado con una única semilla de muestreo. ¿Qué tan reproducible es ese número si reentrenamos el modelo, o simplemente lo remuestreamos? En este artículo, tratamos la FID como una variable aleatoria en un panel de dos ejes de semillas de entrenamiento y generación, y medimos su varianza directamente en varios cientos de redes SiT entrenadas en ImageNet 256x256 condicionado por clase. Reportamos hallazgos sorprendentes: (a) Reentrenar el modelo usando la misma receta con una semilla diferente desplaza la FID 3,2 veces más (en el espacio de características de Inception) que volver a muestrear desde una red fija. (b) Esa brecha es impulsada por tres factores: inicialización aleatoria, orden de los datos y el ruido gaussiano por paso de la pérdida de flow-matching. (c) Aumentar el cómputo o el tamaño del modelo apenas reduce la dispersión, manteniendo el coeficiente de variación (CoV) de la FID dentro de una banda del 1-2%. (d) El ajuste por celda de la guía libre de clasificador reduce a la mitad la dispersión pero reordena qué semillas funcionan mejor, y una semilla de entrenamiento afortunada alcanza la misma FID con hasta 2 veces menos cómputo que una desafortunada. Basándonos en estos hallazgos, recomendamos un nuevo protocolo de evaluación de FID: evaluar bajo guía óptima por celda, tratar cualquier brecha de FID por debajo del CoV medido empíricamente de ~1,3% como no concluyente, e informar una barra de error sobre varias semillas de entrenamiento en lugar de un único número de FID.

English

The Frechet Inception Distance (FID) is the de facto arbiter of image generation, yet most papers report just a single number from a single trained model using a single sampling seed. How reproducible is that number if we retrain the model, or merely resample from it? In this paper, we treat FID as a random variable on a two-axis panel of training and generation seeds, and measure its variance directly on several hundred SiT networks trained on class-conditional ImageNet 256x256. We report surprising findings: (a) Retraining the model using the same recipe with a different seed moves FID 3.2x more (in Inception feature space) than redrawing samples from a fixed network. (b) That gap is driven by three factors: random initialisation, data ordering, and the per-step Gaussian noise of the flow-matching loss. (c) Increasing compute or model size barely tightens the spread, holding the FID coefficient of variation (CoV) inside a 1-2% band. (d) Per-cell classifier-free-guidance tuning halves the spread but reshuffles which seeds work best, and a lucky training seed reaches the same FID with up to 2x less compute than an unlucky one. Based on these findings, we recommend a new FID evaluation protocol: evaluate under per-cell optimal guidance, treat any FID gap below the empirically measured ~1.3% CoV as inconclusive, and report an error bar over several training seeds rather than a single FID number.