ChatPaper.aiChatPaper

Hacer que el FID de Reconstrucción Sea Predictivo del FID de Generación por Difusión

Making Reconstruction FID Predictive of Diffusion Generation FID

March 5, 2026
Autores: Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang
cs.AI

Resumen

Es bien sabido que el FID de reconstrucción (rFID) de un VAE presenta una correlación débil con el FID de generación (gFID) de un modelo de difusión latente. Proponemos el FID interpolado (iFID), una variante simple del rFID que exhibe una fuerte correlación con el gFID. Específicamente, para cada elemento del conjunto de datos, recuperamos su vecino más cercano (NN) en el espacio latente e interpolamos sus representaciones latentes. Luego decodificamos el latente interpolado y calculamos el FID entre las muestras decodificadas y el conjunto de datos original. Adicionalmente, refinamos la afirmación de que el rFID se correlaciona pobremente con el gFID, demostrando que el rFID se correlaciona con la calidad de la muestra en la fase de refinamiento por difusión, mientras que el iFID se correlaciona con la calidad de la muestra en la fase de navegación por difusión. Además, proporcionamos una explicación de por qué el iFID se correlaciona bien con el gFID, y por qué las métricas de reconstrucción están negativamente correlacionadas con el gFID, vinculándolo con resultados sobre generalización y alucinación en difusión. Empíricamente, el iFID es la primera métrica que demuestra una fuerte correlación con el gFID de difusión, alcanzando correlaciones lineales de Pearson y de rangos de Spearman de aproximadamente 0.85. El código fuente se proporciona en https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
English
It is well known that the reconstruction FID (rFID) of a VAE is poorly correlated with the generation FID (gFID) of a latent diffusion model. We propose interpolated FID (iFID), a simple variant of rFID that exhibits a strong correlation with gFID. Specifically, for each element in the dataset, we retrieve its nearest neighbor (NN) in the latent space and interpolate their latent representations. We then decode the interpolated latent and compute the FID between the decoded samples and the original dataset. Additionally, we refine the claim that rFID correlates poorly with gFID, by showing that rFID correlates with sample quality in the diffusion refinement phase, whereas iFID correlates with sample quality in the diffusion navigation phase. Furthermore, we provide an explanation for why iFID correlates well with gFID, and why reconstruction metrics are negatively correlated with gFID, by connecting to results in the diffusion generalization and hallucination. Empirically, iFID is the first metric to demonstrate a strong correlation with diffusion gFID, achieving Pearson linear and Spearman rank correlations approximately 0.85. The source code is provided in https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
PDF12May 8, 2026