Perte de Fréchet pour la Représentation en Génération Visuelle

Résumé

Nous démontrons que la distance de Fréchet (FD), longtemps considérée comme impraticable en tant qu'objectif d'entraînement, peut en réalité être optimisée efficacement dans l'espace de représentation. Notre idée est simple : dissocier la taille de la population pour l'estimation de la FD (par exemple, 50k) de la taille du lot pour le calcul du gradient (par exemple, 1024). Nous nommons cette approche FD-loss. L'optimisation de la FD-loss révèle plusieurs découvertes surprenantes. Premièrement, le post-entraînement d'un générateur de base avec la FD-loss dans différents espaces de représentation améliore systématiquement la qualité visuelle. Dans l'espace de caractéristiques Inception, un générateur en une seule étape atteint un FID de 0,72 sur ImageNet 256x256. Deuxièmement, la même FD-loss permet de reconvertir des générateurs multi-étapes en générateurs en une seule étape performants, sans distillation de modèle enseignant, entraînement adversarial ou cibles par échantillon. Troisièmement, le FID peut mal classer la qualité visuelle : les représentations modernes peuvent produire de meilleurs échantillons malgré un FID Inception moins bon. Cela motive FDr^k, une métrique multi-représentation. Nous espérons que ce travail encouragera une exploration plus poussée des distances distributionnelles dans divers espaces de représentation, à la fois comme objectifs d'entraînement et comme métriques d'évaluation pour les modèles génératifs.

English

We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr^k, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.

Perte de Fréchet pour la Représentation en Génération Visuelle

Representation Fréchet Loss for Visual Generation

Résumé

Support