Representation Fréchet-verlies voor Visuele Generatie

Samenvatting

Wij tonen aan dat de Fréchet-afstand (FD), lang als onpraktisch beschouwd als trainingsdoelstelling, in feite effectief geoptimaliseerd kan worden in de representatieruimte. Ons idee is eenvoudig: ontkoppel de populatiegrootte voor FD-schatting (bijv. 50k) van de batchgrootte voor gradiëntberekening (bijv. 1024). Wij noemen deze aanpak FD-verlies. Het optimaliseren van FD-verlies onthult verschillende verrassende bevindingen. Ten eerste verbetert het na-trainen van een basisgenerator met FD-verlies in verschillende representatieruimtes consequent de visuele kwaliteit. In de Inception-functieruimte behaalt een één-staps generator een FID van 0.72 op ImageNet 256x256. Ten tweede hergebruikt hetzelfde FD-verlies meerstapsgenerators als sterke één-staps generators zonder *teacher distillation*, adversariële training of per-sample doelen. Ten derde kan FID de visuele kwaliteit verkeerd rangschikken: moderne representaties kunnen betere samples opleveren ondanks een slechtere Inception-FID. Dit motiveert FDr^k, een metriek gebaseerd op meerdere representaties. Wij hopen dat dit werk verder onderzoek zal aanmoedigen naar distributionele afstanden in diverse representatieruimtes, zowel als trainingsdoelstellingen als evaluatiemetrieken voor generatieve modellen.

English

We show that Fréchet Distance (FD), long considered impractical as a training objective, can in fact be effectively optimized in the representation space. Our idea is simple: decouple the population size for FD estimation (e.g., 50k) from the batch size for gradient computation (e.g., 1024). We term this approach FD-loss. Optimizing FD-loss reveals several surprising findings. First, post-training a base generator with FD-loss in different representation spaces consistently improves visual quality. Under the Inception feature space, a one-step generator achieves0.72 FID on ImageNet 256x256. Second, the same FD-loss repurposes multi-step generators into strong one-step generators without teacher distillation, adversarial training or per-sample targets. Third, FID can misrank visual quality: modern representations can yield better samples despite worse Inception FID. This motivates FDr^k, a multi-representation metric. We hope this work will encourage further exploration of distributional distances in diverse representation spaces as both training objectives and evaluation metrics for generative models.

Representation Fréchet-verlies voor Visuele Generatie

Representation Fréchet Loss for Visual Generation

Samenvatting

Support