FID-лотерея: количественная оценка скрытой случайности при оценке генеративных моделей

Аннотация

Расстояние Фреше для начальных слоёв (FID) является фактическим критерием оценки качества генерации изображений, однако в большинстве статей приводится лишь одно число, полученное от одной обученной модели при одном значении сида сэмплирования. Насколько воспроизводимо это число, если переобучить модель или просто повторить сэмплирование из неё? В данной работе мы рассматриваем FID как случайную величину на двумерной панели сидов обучения и генерации и непосредственно измеряем её дисперсию на нескольких сотнях сетей SiT, обученных на условном по классам ImageNet 256x256. Мы сообщаем о поразительных результатах: (a) Переобучение модели по тому же рецепту, но с другим сидом, изменяет FID в 3,2 раза сильнее (в пространстве признаков Inception), чем повторная генерация выборок из фиксированной сети. (b) Этот разрыв обусловлен тремя факторами: случайной инициализацией, порядком данных и гауссовым шумом на каждом шаге в функции потерь согласования потоков. (c) Увеличение вычислительных ресурсов или размера модели едва сужает разброс, удерживая коэффициент вариации (КВ) FID в пределах 1–2%. (d) Настройка безклассового направляющего сигнала для каждой ячейки вдвое уменьшает разброс, но перетасовывает, какие сиды работают лучше всего, при этом удачный сид обучения достигает того же FID при вычислительных затратах до двух раз меньших, чем неудачный. На основе этих результатов мы рекомендуем новый протокол оценки FID: проводить оценку при оптимальной для каждой ячейки настройке направляющего сигнала, считать любой разрыв FID ниже эмпирически измеренного ~1,3% КВ неубедительным и сообщать доверительный интервал по нескольким сидам обучения, а не единственное число FID.

English

The Frechet Inception Distance (FID) is the de facto arbiter of image generation, yet most papers report just a single number from a single trained model using a single sampling seed. How reproducible is that number if we retrain the model, or merely resample from it? In this paper, we treat FID as a random variable on a two-axis panel of training and generation seeds, and measure its variance directly on several hundred SiT networks trained on class-conditional ImageNet 256x256. We report surprising findings: (a) Retraining the model using the same recipe with a different seed moves FID 3.2x more (in Inception feature space) than redrawing samples from a fixed network. (b) That gap is driven by three factors: random initialisation, data ordering, and the per-step Gaussian noise of the flow-matching loss. (c) Increasing compute or model size barely tightens the spread, holding the FID coefficient of variation (CoV) inside a 1-2% band. (d) Per-cell classifier-free-guidance tuning halves the spread but reshuffles which seeds work best, and a lucky training seed reaches the same FID with up to 2x less compute than an unlucky one. Based on these findings, we recommend a new FID evaluation protocol: evaluate under per-cell optimal guidance, treat any FID gap below the empirically measured ~1.3% CoV as inconclusive, and report an error bar over several training seeds rather than a single FID number.