ChatPaper.aiChatPaper

Latentes Unificados (LU): Cómo entrenar tus latentes

Unified Latents (UL): How to train your latents

February 19, 2026
Autores: Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
cs.AI

Resumen

Presentamos Unified Latents (UL), un marco para aprender representaciones latentes que están regularizadas conjuntamente por un prior de difusión y decodificadas por un modelo de difusión. Al vincular el ruido de salida del codificador con el nivel mínimo de ruido del prior, obtenemos un objetivo de entrenamiento simple que proporciona un límite superior ajustado para la tasa de bits latente. En ImageNet-512, nuestro enfoque logra un FID competitivo de 1.4, con alta calidad de reconstrucción (PSNR) mientras requiere menos FLOPs de entrenamiento que los modelos entrenados en latentes de Stable Diffusion. En Kinetics-600, establecemos un nuevo estado del arte con un FVD de 1.3.
English
We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.
PDF212February 21, 2026