Perda de Fréchet de Representação para Geração Visual

Resumo

Demonstramos que a Distância de Fréchet (FD), há muito considerada impraticável como objetivo de treinamento, pode de fato ser otimizada eficazmente no espaço de representação. A nossa ideia é simples: desacoplar o tamanho da população para estimativa da FD (ex: 50k) do tamanho do lote para cálculo do gradiente (ex: 1024). Denominamos esta abordagem de FD-loss. A otimização da FD-loss revela várias descobertas surpreendentes. Primeiro, o pós-treino de um gerador base com FD-loss em diferentes espaços de representação melhora consistentemente a qualidade visual. No espaço de características Inception, um gerador de um passo alcança 0.72 FID no ImageNet 256x256. Segundo, a mesma FD-loss reconverte geradores de múltiplos passos em fortes geradores de um passo sem destilação por professor, treino adversarial ou objetivos por amostra. Terceiro, o FID pode classificar erroneamente a qualidade visual: representações modernas podem produzir amostras melhores apesar de pior FID Inception. Isto motiva o FDr^k, uma métrica de multi-representação. Esperamos que este trabalho incentive uma maior exploração de distâncias distribucionais em diversos espaços de representação, tanto como objetivos de treinamento como métricas de avaliação para modelos generativos.

English

We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr^k, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.

Perda de Fréchet de Representação para Geração Visual

Representation Fréchet Loss for Visual Generation

Resumo

Support