재구성 FID를 확산 생성 FID 예측 지표로 활용하기
Making Reconstruction FID Predictive of Diffusion Generation FID
March 5, 2026
저자: Tongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang
cs.AI
초록
VAE의 재구성 FID(rFID)와 잠재 확산 모델의 생성 FID(gFID) 간의 상관관계가 약하다는 것은 잘 알려져 있습니다. 본 논문에서는 gFID와 강한 상관관계를 보이는 rFID의 간단한 변형인 보간 FID(iFID)를 제안합니다. 구체적으로, 데이터셋의 각 요소에 대해 잠재 공간에서 최근접 이웃(NN)을 검색하고 이들의 잠재 표현을 보간합니다. 그런 다음 보간된 잠재 변수를 디코딩하여 디코딩된 샘플과 원본 데이터셋 간의 FID를 계산합니다. 또한, rFID가 확산 정제 단계의 샘플 품질과 상관관계를 보이는 반면, iFID는 확산 탐색 단계의 샘플 품질과 상관관계를 보인다는 점을 통해 rFID와 gFID의 상관관계가 약하다는 주장을 보다 정교하게 제시합니다. 나아가, 확산 일반화 및 환각에 대한 결과와 연결지어 iFID가 gFID와 왜 잘 상관되는지, 그리고 재구성 메트릭스가 gFID와 왜 부(-)의 상관관계를 보이는지에 대한 설명을 제공합니다. 실험적으로 iFID는 확산 gFID와 약 0.85의 피어슨 선형 상관관계 및 스피어만 순위 상관관계를 달성하여 강한 상관관계를 입증하는 최초의 메트릭스입니다. 소스 코드는 https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID에서 확인할 수 있습니다.
English
It is well known that the reconstruction FID (rFID) of a VAE is poorly correlated with the generation FID (gFID) of a latent diffusion model. We propose interpolated FID (iFID), a simple variant of rFID that exhibits a strong correlation with gFID. Specifically, for each element in the dataset, we retrieve its nearest neighbor (NN) in the latent space and interpolate their latent representations. We then decode the interpolated latent and compute the FID between the decoded samples and the original dataset. Additionally, we refine the claim that rFID correlates poorly with gFID, by showing that rFID correlates with sample quality in the diffusion refinement phase, whereas iFID correlates with sample quality in the diffusion navigation phase. Furthermore, we provide an explanation for why iFID correlates well with gFID, and why reconstruction metrics are negatively correlated with gFID, by connecting to results in the diffusion generalization and hallucination. Empirically, iFID is the first metric to demonstrate a strong correlation with diffusion gFID, achieving Pearson linear and Spearman rank correlations approximately 0.85. The source code is provided in https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.