Die FID-Lotterie: Quantifizierung versteckter Zufälligkeit bei der Evaluierung generativer Modelle

Zusammenfassung

Die Fréchet-Inception-Distanz (FID) ist der De-facto-Standard für die Bewertung der Bildgenerierung, doch die meisten Arbeiten berichten nur eine einzelne Zahl von einem einzigen trainierten Modell mit einem einzigen Sampling-Seed. Wie reproduzierbar ist diese Zahl, wenn wir das Modell neu trainieren oder lediglich erneut daraus sampeln? In dieser Arbeit behandeln wir den FID als Zufallsvariable auf einem zweiachsigen Raster aus Trainings- und Generierungs-Seeds und messen seine Varianz direkt an mehreren hundert SiT-Netzwerken, die auf klassenbedingtem ImageNet 256×256 trainiert wurden. Wir berichten über überraschende Ergebnisse: (a) Das Neulernen des Modells mit derselben Rezeptur, aber einem anderen Seed verschiebt den FID um das 3,2-Fache (im Inception-Feature-Raum) als das erneute Ziehen von Samples aus einem festen Netzwerk. (b) Diese Lücke wird durch drei Faktoren verursacht: zufällige Initialisierung, Datenreihenfolge und das Gaußsche Rauschen pro Schritt des Flow-Matching-Verlusts. (c) Eine Erhöhung des Rechenaufwands oder der Modellgröße verringert die Streuung kaum und hält den FID-Variationskoeffizienten (CoV) innerhalb eines Bereichs von 1–2 %. (d) Eine zellenweise Optimierung der Classifier-Free Guidance halbiert die Streuung, mischt jedoch die Seeds neu, die am besten funktionieren, und ein glücklicher Trainings-Seed erreicht denselben FID mit bis zu 2× weniger Rechenaufwand als ein unglücklicher. Auf Grundlage dieser Ergebnisse empfehlen wir ein neues FID-Bewertungsprotokoll: Evaluierung unter zellenweiser optimaler Führung, jeden FID-Unterschied unterhalb des empirisch gemessenen CoV von ~1,3 % als nicht schlüssig betrachten und einen Fehlerbalken über mehrere Trainings-Seeds anstelle einer einzelnen FID-Zahl angeben.

English

The Frechet Inception Distance (FID) is the de facto arbiter of image generation, yet most papers report just a single number from a single trained model using a single sampling seed. How reproducible is that number if we retrain the model, or merely resample from it? In this paper, we treat FID as a random variable on a two-axis panel of training and generation seeds, and measure its variance directly on several hundred SiT networks trained on class-conditional ImageNet 256x256. We report surprising findings: (a) Retraining the model using the same recipe with a different seed moves FID 3.2x more (in Inception feature space) than redrawing samples from a fixed network. (b) That gap is driven by three factors: random initialisation, data ordering, and the per-step Gaussian noise of the flow-matching loss. (c) Increasing compute or model size barely tightens the spread, holding the FID coefficient of variation (CoV) inside a 1-2% band. (d) Per-cell classifier-free-guidance tuning halves the spread but reshuffles which seeds work best, and a lucky training seed reaches the same FID with up to 2x less compute than an unlucky one. Based on these findings, we recommend a new FID evaluation protocol: evaluate under per-cell optimal guidance, treat any FID gap below the empirically measured ~1.3% CoV as inconclusive, and report an error bar over several training seeds rather than a single FID number.