통합 잠재 변수(UL): 잠재 변수 학습 방법
Unified Latents (UL): How to train your latents
February 19, 2026
저자: Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
cs.AI
초록
우리는 확산 사전 분포(diffusion prior)에 의해 공동 규제되고 확산 모델에 의해 디코딩되는 잠재 표현을 학습하기 위한 프레임워크인 통합 잠재 공간(Unified Latents, UL)을 제안합니다. 인코더의 출력 노이즈를 사전 분포의 최소 노이즈 수준과 연결함으로써, 잠재 비트레이트에 대한 타이트한 상한을 제공하는 간단한 학습 목적 함수를 도출합니다. ImageNet-512에서 우리의 접근 방식은 Stable Diffusion 잠재 공간으로 학습된 모델들보다 더 적은 학습 FLOPs를 요구하면서 1.4의 경쟁력 있는 FID와 높은 복원 품질(PSNR)을 달성했습니다. Kinetics-600에서는 1.3의 새로운 최첨단 FVD 기록을 세웠습니다.
English
We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.