Vereinheitlichte Latente (UL): Wie Sie Ihre Latenten trainieren
Unified Latents (UL): How to train your latents
February 19, 2026
papers.authors: Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
cs.AI
papers.abstract
Wir stellen Unified Latents (UL) vor, ein Framework zum Erlernen latenter Repräsentationen, die gemeinsam durch einen Diffusions-Prior regularisiert und durch ein Diffusionsmodell dekodiert werden. Indem wir das Ausgangsrauschen des Encoders mit dem minimalen Rauschlevel des Priors verknüpfen, erhalten wir ein einfaches Trainingsziel, das eine scharfe obere Schranke für die latente Bitrate liefert. Auf ImageNet-512 erreicht unser Ansatz einen konkurrenzfähigen FID-Wert von 1,4 bei hoher Rekonstruktionsqualität (PSNR) und benötigt dabei weniger Trainings-FLOPs als Modelle, die auf Stable-Diffusion-Latents trainiert wurden. Auf Kinetics-600 erzielen wir einen neuen state-of-the-art FVD-Wert von 1,3.
English
We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.