Unified Latents (UL): Hoe je je latente variabelen traint

Samenvatting

Wij presenteren Unified Latents (UL), een raamwerk voor het leren van latente representaties die gezamenlijk worden geregulariseerd door een diffusieprior en gedecodeerd door een diffusiemodel. Door de uitgangsruis van de encoder te koppelen aan het minimale ruisniveau van de prior, verkrijgen we een eenvoudige trainingsdoelstelling die een strakke bovengrens biedt voor de latente bitsnelheid. Op ImageNet-512 bereikt onze aanpak een competitieve FID van 1,4, met een hoge reconstructiekwaliteit (PSNR), terwijl minder trainings-FLOPs nodig zijn dan bij modellen getraind op Stable Diffusion-latenten. Op Kinetics-600 vestigen we een nieuwe state-of-the-art FVD van 1,3.

English

We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.

Unified Latents (UL): Hoe je je latente variabelen traint

Unified Latents (UL): How to train your latents

Samenvatting

Support