ChatPaper.aiChatPaper

분포 매칭 변분 자동인코더

Distribution Matching Variational AutoEncoder

December 8, 2025
저자: Sen Ye, Jianning Pei, Mengde Xu, Shuyang Gu, Chunyu Wang, Liwei Wang, Han Hu
cs.AI

초록

대부분의 시각적 생성 모델은 확산 또는 자기회귀 모델링을 적용하기 전에 이미지를 잠재 공간으로 압축합니다. 그러나 VAE나 파운데이션 모델 정렬 인코더와 같은 기존 접근법은 잠재 공간의 분포를 명시적으로 설계하지 않은 채 암묵적으로 제약을 가해, 어떤 유형의 분포가 모델링에 최적인지 불분명하게 만듭니다. 우리는 분포 매칭 제약을 통해 인코더의 잠재 분포를 임의의 참조 분포와 명시적으로 정렬하는 Distribution-Matching VAE(DMVAE)를 소개합니다. 이는 기존 VAE의 가우시안 사전 분포를 넘어 자기지도 학습 특징, 확산 노이즈 또는 기타 사전 분포에서 유래한 분포와의 정렬을 가능하게 합니다. DMVAE를 통해 우리는 어떤 잠재 분포가 모델링에 더 유리한지 체계적으로 연구할 수 있으며, SSL에서 유래한 분포가 재구성 정확도와 모델링 효율성 사이에서 탁월한 균형을 제공함을 발견했습니다. 이는 ImageNet에서 단 64회의 학습 에폭만으로 gFID 3.2를 달성했습니다. 우리의 결과는 고정된 사전 분포에 의존하기보다는 적합한 잠재 분포 구조를 선택하는 것(분포 수준 정렬을 통해 달성)이 모델링하기 쉬운 잠재 변수와 고정밀 이미지 합성 간의 격차를 해소하는 핵심임을 시사합니다. 코드는 https://github.com/sen-ye/dmvae에서 확인할 수 있습니다.
English
Most visual generative models compress images into a latent space before applying diffusion or autoregressive modelling. Yet, existing approaches such as VAEs and foundation model aligned encoders implicitly constrain the latent space without explicitly shaping its distribution, making it unclear which types of distributions are optimal for modeling. We introduce Distribution-Matching VAE (DMVAE), which explicitly aligns the encoder's latent distribution with an arbitrary reference distribution via a distribution matching constraint. This generalizes beyond the Gaussian prior of conventional VAEs, enabling alignment with distributions derived from self-supervised features, diffusion noise, or other prior distributions. With DMVAE, we can systematically investigate which latent distributions are more conducive to modeling, and we find that SSL-derived distributions provide an excellent balance between reconstruction fidelity and modeling efficiency, reaching gFID equals 3.2 on ImageNet with only 64 training epochs. Our results suggest that choosing a suitable latent distribution structure (achieved via distribution-level alignment), rather than relying on fixed priors, is key to bridging the gap between easy-to-model latents and high-fidelity image synthesis. Code is avaliable at https://github.com/sen-ye/dmvae.
PDF192December 10, 2025