De FID-loterij: Het kwantificeren van verborgen willekeur in de evaluatie van generatieve modellen

Samenvatting

De Frechet Inception Distance (FID) is de facto arbiter van beeldgeneratie, maar de meeste artikelen rapporteren slechts een enkel getal van een enkel getraind model met een enkele zaadwaarde voor bemonstering. Hoe reproduceerbaar is dat getal als we het model opnieuw trainen, of er slechts opnieuw uit bemonsteren? In dit artikel behandelen we FID als een stochastische variabele in een tweedimensionaal assenstelsel van trainings- en generatiezaadwaarden, en meten we de variantie ervan direct op enkele honderden SiT-netwerken getraind op klasse-conditional ImageNet 256x256. We rapporteren verrassende bevindingen: (a) Het opnieuw trainen van het model met hetzelfde recept maar een andere zaadwaarde verplaatst FID 3,2 keer meer (in de kenmerkruimte van Inception) dan het opnieuw trekken van monsters uit een vast netwerk. (b) Die kloof wordt veroorzaakt door drie factoren: willekeurige initialisatie, gegevensordening en de per-stap Gaussische ruis van het flow-matching verlies. (c) Het vergroten van rekenkracht of modelgrootte verkleint de spreiding nauwelijks, waardoor de variatiecoëfficiënt (CoV) van FID binnen een band van 1–2% blijft. (d) Per-cel afstemming van classifier-free guidance halveert de spreiding maar herschikt welke zaadwaarden het beste werken, en een gelukkige trainingszaadwaarde bereikt dezelfde FID met tot 2× minder rekenkracht dan een ongelukkige. Op basis van deze bevindingen bevelen wij een nieuw FID-evaluatieprotocol aan: evalueer onder per-cel optimale begeleiding, behandel elk FID-verschil onder de empirisch gemeten ~1,3% CoV als niet-conclusief, en rapporteer een foutbalk over meerdere trainingszaadwaarden in plaats van een enkel FID-getal.

English

The Frechet Inception Distance (FID) is the de facto arbiter of image generation, yet most papers report just a single number from a single trained model using a single sampling seed. How reproducible is that number if we retrain the model, or merely resample from it? In this paper, we treat FID as a random variable on a two-axis panel of training and generation seeds, and measure its variance directly on several hundred SiT networks trained on class-conditional ImageNet 256x256. We report surprising findings: (a) Retraining the model using the same recipe with a different seed moves FID 3.2x more (in Inception feature space) than redrawing samples from a fixed network. (b) That gap is driven by three factors: random initialisation, data ordering, and the per-step Gaussian noise of the flow-matching loss. (c) Increasing compute or model size barely tightens the spread, holding the FID coefficient of variation (CoV) inside a 1-2% band. (d) Per-cell classifier-free-guidance tuning halves the spread but reshuffles which seeds work best, and a lucky training seed reaches the same FID with up to 2x less compute than an unlucky one. Based on these findings, we recommend a new FID evaluation protocol: evaluate under per-cell optimal guidance, treat any FID gap below the empirically measured ~1.3% CoV as inconclusive, and report an error bar over several training seeds rather than a single FID number.