La loterie FID : quantifier l'aléa caché dans l'évaluation des modèles génératifs

Résumé

La distance de Fréchet Inception (FID) est l'arbitre de facto de la génération d'images, pourtant la plupart des articles ne rapportent qu'un seul chiffre issu d'un unique modèle entraîné avec une unique graine d'échantillonnage. Dans quelle mesure ce chiffre est-il reproductible si l'on réentraîne le modèle, ou simplement si l'on rééchantillonne à partir de celui-ci ? Dans cet article, nous traitons la FID comme une variable aléatoire sur un panel à deux axes de graines d'entraînement et de génération, et nous mesurons directement sa variance sur plusieurs centaines de réseaux SiT entraînés sur ImageNet 256x256 conditionné par classe. Nous rapportons des résultats surprenants : (a) Réentraîner le modèle avec la même recette mais une graine différente déplace la FID 3,2 fois plus (dans l'espace des caractéristiques d'Inception) que le rééchantillonnage à partir d'un réseau fixe. (b) Cet écart est dû à trois facteurs : l'initialisation aléatoire, l'ordre des données et le bruit gaussien par étape de la perte de flow-matching. (c) Augmenter la puissance de calcul ou la taille du modèle ne réduit guère la dispersion, maintenant le coefficient de variation (CoV) de la FID dans une bande de 1 à 2 %. (d) Le réglage du guidage sans classifieur par cellule réduit de moitié la dispersion mais remanie les graines les plus performantes, et une graine d'entraînement chanceuse atteint la même FID avec jusqu'à deux fois moins de calculs qu'une graine malchanceuse. Sur la base de ces résultats, nous recommandons un nouveau protocole d'évaluation de la FID : évaluer sous un guidage optimal par cellule, considérer tout écart de FID inférieur au CoV empirique d'environ 1,3 % comme non concluant, et rapporter une barre d'erreur sur plusieurs graines d'entraînement plutôt qu'un seul chiffre de FID.

English

The Frechet Inception Distance (FID) is the de facto arbiter of image generation, yet most papers report just a single number from a single trained model using a single sampling seed. How reproducible is that number if we retrain the model, or merely resample from it? In this paper, we treat FID as a random variable on a two-axis panel of training and generation seeds, and measure its variance directly on several hundred SiT networks trained on class-conditional ImageNet 256x256. We report surprising findings: (a) Retraining the model using the same recipe with a different seed moves FID 3.2x more (in Inception feature space) than redrawing samples from a fixed network. (b) That gap is driven by three factors: random initialisation, data ordering, and the per-step Gaussian noise of the flow-matching loss. (c) Increasing compute or model size barely tightens the spread, holding the FID coefficient of variation (CoV) inside a 1-2% band. (d) Per-cell classifier-free-guidance tuning halves the spread but reshuffles which seeds work best, and a lucky training seed reaches the same FID with up to 2x less compute than an unlucky one. Based on these findings, we recommend a new FID evaluation protocol: evaluate under per-cell optimal guidance, treat any FID gap below the empirically measured ~1.3% CoV as inconclusive, and report an error bar over several training seeds rather than a single FID number.