ChatPaper.aiChatPaper

Rendere l'FID della Ricostruzione Predittivo dell'FID della Generazione con Diffusion

Making Reconstruction FID Predictive of Diffusion Generation FID

March 5, 2026
Autori: Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang
cs.AI

Abstract

È noto che la ricostruzione FID (rFID) di un VAE è scarsamente correlata con la generazione FID (gFID) di un modello di diffusione latente. Proponiamo l'FID interpolato (iFID), una semplice variante dell'rFID che mostra una forte correlazione con il gFID. Nello specifico, per ogni elemento nel dataset, recuperiamo il suo vicino più prossimo (NN) nello spazio latente e interpoliamo le loro rappresentazioni latenti. Decodifichiamo quindi il latente interpolato e calcoliamo l'FID tra i campioni decodificati e il dataset originale. Inoltre, perfezioniamo l'affermazione che l'rFID è scarsamente correlato con il gFID, dimostrando che l'rFID si correla con la qualità del campione nella fase di raffinamento della diffusione, mentre l'iFID si correla con la qualità del campione nella fase di navigazione della diffusione. Forniamo inoltre una spiegazione del motivo per cui l'iFID è ben correlato con il gFID, e del perché le metriche di ricostruzione sono negativamente correlate con il gFID, collegandoci ai risultati sulla generalizzazione e allucinazione nella diffusione. Empiricamente, l'iFID è la prima metrica a dimostrare una forte correlazione con il gFID della diffusione, raggiungendo correlazioni lineari di Pearson e correlazioni di rango di Spearman di circa 0,85. Il codice sorgente è disponibile su https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
English
It is well known that the reconstruction FID (rFID) of a VAE is poorly correlated with the generation FID (gFID) of a latent diffusion model. We propose interpolated FID (iFID), a simple variant of rFID that exhibits a strong correlation with gFID. Specifically, for each element in the dataset, we retrieve its nearest neighbor (NN) in the latent space and interpolate their latent representations. We then decode the interpolated latent and compute the FID between the decoded samples and the original dataset. Additionally, we refine the claim that rFID correlates poorly with gFID, by showing that rFID correlates with sample quality in the diffusion refinement phase, whereas iFID correlates with sample quality in the diffusion navigation phase. Furthermore, we provide an explanation for why iFID correlates well with gFID, and why reconstruction metrics are negatively correlated with gFID, by connecting to results in the diffusion generalization and hallucination. Empirically, iFID is the first metric to demonstrate a strong correlation with diffusion gFID, achieving Pearson linear and Spearman rank correlations approximately 0.85. The source code is provided in https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
PDF02March 10, 2026