ChatPaper.aiChatPaper

統一潜在変数(UL):潜在変数の学習手法

Unified Latents (UL): How to train your latents

February 19, 2026
著者: Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, Tim Salimans
cs.AI

要旨

本論文では、拡散モデルの事前分布による正則化と拡散モデルによるデコードを同時に行う潜在表現学習フレームワーク「Unified Latents (UL)」を提案します。エンコーダの出力ノイズを事前分布の最小ノイズレベルに連結することで、潜在ビットレートの厳密な上界を提供する簡潔な学習目的関数を導出します。ImageNet-512では、Stable Diffusionの潜在空間で学習したモデルよりも少ない学習FLOPsで、競争力のあるFID1.4を達成し、高い再構成品質(PSNR)を実現しました。Kinetics-600では、新たなstate-of-the-artとなるFVD1.3を達成しています。
English
We present Unified Latents (UL), a framework for learning latent representations that are jointly regularized by a diffusion prior and decoded by a diffusion model. By linking the encoder's output noise to the prior's minimum noise level, we obtain a simple training objective that provides a tight upper bound on the latent bitrate. On ImageNet-512, our approach achieves competitive FID of 1.4, with high reconstruction quality (PSNR) while requiring fewer training FLOPs than models trained on Stable Diffusion latents. On Kinetics-600, we set a new state-of-the-art FVD of 1.3.
PDF212February 21, 2026