Latents Unifiés (LU) : Comment entraîner vos variables latentes
Unified Latents (UL): How to train your latents
February 19, 2026
papers.authors: Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
cs.AI
papers.abstract
Nous présentons Unified Latents (UL), un cadre pour l'apprentissage de représentations latentes conjointement régularisées par un prior de diffusion et décodées par un modèle de diffusion. En reliant le bruit de sortie de l'encodeur au niveau de bruit minimal du prior, nous obtenons un objectif d'entraînement simple qui fournit une borne supérieure serrée sur le débit binaire latent. Sur ImageNet-512, notre approche atteint un FID compétitif de 1,4, avec une qualité de reconstruction élevée (PSNR) tout en nécessitant moins de FLOPs d'entraînement que les modèles entraînés sur les latents de Stable Diffusion. Sur Kinetics-600, nous établissons un nouvel état de l'art avec un FVD de 1,3.
English
We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.