Фреше-индекса представлений для визуальной генерации

Аннотация

Мы показываем, что расстояние Фреше (FD), долгое время считавшееся непрактичным в качестве целевой функции обучения, на самом деле может быть эффективно оптимизировано в пространстве представлений. Наша идея проста: разделить размер популяции для оценки FD (например, 50 тыс.) и размер батча для вычисления градиента (например, 1024). Мы называем этот подход **FD-лоссом**. Оптимизация FD-лосса выявляет несколько неожиданных результатов. Во-первых, дообучение базового генератора с FD-лоссом в различных пространствах представлений последовательно улучшает визуальное качество. В пространстве признаков Inception одношаговый генератор достигает значения FID 0.72 на ImageNet 256x256. Во-вторых, тот же самый FD-лосс позволяет преобразовать многошаговые генераторы в мощные одношаговые генераторы без применения дистилляции от учителя, состязательного обучения или целевых значений для отдельных образцов. В-третьих, FID может некорректно ранжировать визуальное качество: современные представления могут давать лучшие сэмплы, несмотря на худший FID по Inception. Это мотивирует введение **FD<sub>r^k</sub>**, метрики, основанной на множественных представлениях. Мы надеемся, что данная работа стимулирует дальнейшее исследование распределительных расстояний в различных пространствах представлений как в качестве целевых функций обучения, так и в качестве метрик оценки для генеративных моделей.

English

We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr^k, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.

Фреше-индекса представлений для визуальной генерации

Representation Fréchet Loss for Visual Generation

Аннотация

Support