A Loteria FID: Quantificando Aleatoriedade Oculta na Avaliação de Modelos Generativos

Resumo

A Distância de Inception Fréchet (FID) é o árbitro de facto da geração de imagens, embora a maioria dos artigos relate apenas um único número de um único modelo treinado com uma única semente de amostragem. Quão reproduzível é esse número se retreinarmos o modelo, ou apenas reamostrarmos a partir dele? Neste artigo, tratamos a FID como uma variável aleatória em um painel de dois eixos de sementes de treinamento e geração, e medimos sua variância diretamente em várias centenas de redes SiT treinadas no ImageNet 256x256 condicionado por classe. Reportamos descobertas surpreendentes: (a) Retreinar o modelo usando a mesma receita com uma semente diferente desloca a FID 3,2x mais (no espaço de características Inception) do que redesenhar amostras de uma rede fixa. (b) Essa lacuna é impulsionada por três fatores: inicialização aleatória, ordenação dos dados e o ruído gaussiano por passo da perda de correspondência de fluxo. (c) Aumentar o poder computacional ou o tamanho do modelo mal reduz a dispersão, mantendo o coeficiente de variação (CV) da FID dentro de uma faixa de 1-2%. (d) O ajuste de orientação sem classificador por célula reduz pela metade a dispersão, mas reordena quais sementes funcionam melhor, e uma semente de treinamento sortuda atinge a mesma FID com até 2x menos poder computacional do que uma azarada. Com base nessas descobertas, recomendamos um novo protocolo de avaliação da FID: avaliar sob orientação ótima por célula, tratar qualquer diferença na FID abaixo do CV de ~1,3% medido empiricamente como inconclusiva, e reportar uma barra de erro sobre várias sementes de treinamento, em vez de um único valor de FID.

English

The Frechet Inception Distance (FID) is the de facto arbiter of image generation, yet most papers report just a single number from a single trained model using a single sampling seed. How reproducible is that number if we retrain the model, or merely resample from it? In this paper, we treat FID as a random variable on a two-axis panel of training and generation seeds, and measure its variance directly on several hundred SiT networks trained on class-conditional ImageNet 256x256. We report surprising findings: (a) Retraining the model using the same recipe with a different seed moves FID 3.2x more (in Inception feature space) than redrawing samples from a fixed network. (b) That gap is driven by three factors: random initialisation, data ordering, and the per-step Gaussian noise of the flow-matching loss. (c) Increasing compute or model size barely tightens the spread, holding the FID coefficient of variation (CoV) inside a 1-2% band. (d) Per-cell classifier-free-guidance tuning halves the spread but reshuffles which seeds work best, and a lucky training seed reaches the same FID with up to 2x less compute than an unlucky one. Based on these findings, we recommend a new FID evaluation protocol: evaluate under per-cell optimal guidance, treat any FID gap below the empirically measured ~1.3% CoV as inconclusive, and report an error bar over several training seeds rather than a single FID number.