ChatPaper.aiChatPaper

Унифицированные латентные переменные (UL): как обучать ваши латентные представления

Unified Latents (UL): How to train your latents

February 19, 2026
Авторы: Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
cs.AI

Аннотация

Мы представляем Unified Latents (UL) — фреймворк для обучения латентных представлений, совместно регуляризуемых диффузионным априорным распределением и декодируемых диффузионной моделью. Связывая выходной шум энкодера с минимальным уровнем шума априорного распределения, мы получаем простую функцию потерь, которая обеспечивает точную верхнюю границу битрейта латентного представления. На наборе данных ImageNet-512 наш подход демонстрирует конкурентоспособный показатель FID, равный 1.4, при высоком качестве реконструкции (PSNR) и требует меньше FLOP для обучения по сравнению с моделями, обученными на латентных представлениях Stable Diffusion. На наборе Kinetics-600 мы устанавливаем новый рекорд FVD, равный 1.3.
English
We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.
PDF212February 21, 2026