Fréchet-Repräsentationsverlust für visuelle Generierung

Zusammenfassung

Wir zeigen, dass die Fréchet-Distanz (FD), die lange als unpraktikabel als Trainingsziel galt, tatsächlich effektiv im Repräsentationsraum optimiert werden kann. Unsere Idee ist einfach: Wir entkoppeln die Populationsgröße für die FD-Schätzung (z.B. 50k) von der Batch-Größe für die Gradientenberechnung (z.B. 1024). Wir bezeichnen diesen Ansatz als FD-Loss. Die Optimierung des FD-Loss offenbart mehrere überraschende Erkenntnisse. Erstens verbessert das Nachtrainieren eines Basis-Generators mit FD-Loss in verschiedenen Repräsentationsräumen durchgängig die visuelle Qualität. Im Inception-Merkmalsraum erreicht ein Ein-Schritt-Generator einen FID von 0,72 auf ImageNet 256x256. Zweitens wandelt derselbe FD-Loss Mehrschritt-Generatoren ohne Lehrer-Distillation, adversariales Training oder pro-Beispiel-Ziele in starke Ein-Schritt-Generatoren um. Drittens kann FID die visuelle Qualität fehlbewerten: Moderne Repräsentationen können trotz schlechterem Inception-FID bessere Samples liefern. Dies motiviert FDr^k, eine Metrik mit multiplen Repräsentationen. Wir hoffen, dass diese Arbeit weitere Erkundungen von Verteilungsdistanzen in diversen Repräsentationsräumen sowohl als Trainingsziele als auch als Bewertungsmetriken für generative Modelle anregen wird.

English

We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr^k, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.

Fréchet-Repräsentationsverlust für visuelle Generierung

Representation Fréchet Loss for Visual Generation

Zusammenfassung

Support