Perdita di Fréchet della Rappresentazione per la Generazione Visiva
Representation Fréchet Loss for Visual Generation
April 30, 2026
Autori: Jiawei Yang, Zhengyang Geng, Xuan Ju, Yonglong Tian, Yue Wang
cs.AI
Abstract
Dimostriamo che la Distanza di Fréchet (FD), a lungo considerata impraticabile come obiettivo di addestramento, può in realtà essere ottimizzata efficacemente nello spazio delle rappresentazioni. La nostra idea è semplice: disaccoppiare la dimensione della popolazione per la stima FD (ad es., 50k) dalla dimensione del batch per il calcolo del gradiente (ad es., 1024). Definiamo questo approccio come FD-loss. L'ottimizzazione della FD-loss rivela diverse scoperte sorprendenti. In primo luogo, il post-addestramento di un generatore di base con FD-loss in diversi spazi di rappresentazione migliora costantemente la qualità visiva. Nello spazio delle caratteristiche Inception, un generatore a singolo passo raggiunge un FID di 0.72 su ImageNet 256x256. In secondo luogo, la stessa FD-loss riconverte generatori multi-passo in forti generatori a singolo passo senza distillazione insegnante, addestramento adversarial o target per campione. In terzo luogo, l'FID può classificare erroneamente la qualità visiva: rappresentazioni moderne possono produrre campioni migliori nonostante un FID Inception peggiore. Ciò motiva FDr^k, una metrica multi-rappresentazione. Speriamo che questo lavoro incoraggi un'ulteriore esplorazione delle distanze distribuzionali in vari spazi di rappresentazione, sia come obiettivi di addestramento che come metriche di valutazione per modelli generativi.
English
We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr^k, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.