Het Voorspellend Maken van Reconstructie-FID voor Diffusiegeneratie-FID
Making Reconstruction FID Predictive of Diffusion Generation FID
March 5, 2026
Auteurs: Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang
cs.AI
Samenvatting
Het is bekend dat de reconstructie-FID (rFID) van een VAE slecht gecorreleerd is met de generatie-FID (gFID) van een latent diffusiemaat. Wij stellen geïnterpoleerde FID (iFID) voor, een eenvoudige variant van rFID die een sterke correlatie vertoont met gFID. Concreet halen we voor elk element in de dataset zijn naaste buur (NN) op in de latente ruimte en interpoleren we hun latente representaties. Vervolgens decoderen we het geïnterpoleerde latente punt en berekenen we de FID tussen de gedecodeerde samples en de originele dataset. Daarnaast verfijnen we de bewering dat rFID slecht correleert met gFID, door aan te tonen dat rFID correleert met de samplekwaliteit in de diffusieverfijningsfase, terwijl iFID correleert met de samplekwaliteit in de diffusienavigatiefase. Verder geven we een verklaring voor waarom iFID goed correleert met gFID, en waarom reconstructiemetrieken negatief gecorreleerd zijn met gFID, door deze te verbinden met resultaten over diffusiegeneralizatie en -hallucinatie. Empirisch gezien is iFID de eerste metriek die een sterke correlatie met diffusie-gFID aantoont, met Pearson lineaire en Spearman rangcorrelaties van ongeveer 0,85. De broncode is beschikbaar op https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
English
It is well known that the reconstruction FID (rFID) of a VAE is poorly correlated with the generation FID (gFID) of a latent diffusion model. We propose interpolated FID (iFID), a simple variant of rFID that exhibits a strong correlation with gFID. Specifically, for each element in the dataset, we retrieve its nearest neighbor (NN) in the latent space and interpolate their latent representations. We then decode the interpolated latent and compute the FID between the decoded samples and the original dataset. Additionally, we refine the claim that rFID correlates poorly with gFID, by showing that rFID correlates with sample quality in the diffusion refinement phase, whereas iFID correlates with sample quality in the diffusion navigation phase. Furthermore, we provide an explanation for why iFID correlates well with gFID, and why reconstruction metrics are negatively correlated with gFID, by connecting to results in the diffusion generalization and hallucination. Empirically, iFID is the first metric to demonstrate a strong correlation with diffusion gFID, achieving Pearson linear and Spearman rank correlations approximately 0.85. The source code is provided in https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.