Pérdida de Fréchet de Representación para la Generación Visual

Resumen

Demostramos que la Distancia de Fréchet (FD), considerada durante mucho tiempo como un objetivo de entrenamiento poco práctico, puede optimizarse eficazmente en el espacio de representación. Nuestra idea es simple: desacoplar el tamaño de la población para la estimación de FD (por ejemplo, 50k) del tamaño del lote para el cálculo del gradiente (por ejemplo, 1024). Denominamos a este enfoque FD-loss. Optimizar FD-loss revela varios hallazgos sorprendentes. Primero, el ajuste posterior de un generador base con FD-loss en diferentes espacios de representación mejora consistentemente la calidad visual. Bajo el espacio de características Inception, un generador de un solo paso alcanza un FID de 0.72 en ImageNet 256x256. Segundo, el mismo FD-loss readapta generadores multi-paso en generadores de un solo paso potentes sin necesidad de destilación de profesor, entrenamiento adversarial o objetivos por muestra. Tercero, el FID puede clasificar erróneamente la calidad visual: las representaciones modernas pueden producir muestras mejores a pesar de un FID de Inception peor. Esto motiva FDr^k, una métrica multi-representación. Esperamos que este trabajo fomente una mayor exploración de las distancias distribucionales en diversos espacios de representación, tanto como objetivos de entrenamiento como métricas de evaluación para modelos generativos.

English

We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr^k, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.

Pérdida de Fréchet de Representación para la Generación Visual

Representation Fréchet Loss for Visual Generation

Resumen

Support