JLT : Prédiction de latents propres dans les Transformers de diffusion latente

Résumé

Le flow matching avec prédiction des données propres a montré que la régression du point propre peut exploiter la structure de faible dimension plus efficacement que la prédiction d'une quantité bruitée ambiante. Nous nous demandons si ce principe reste utile après que les images ont été projetées dans un espace latent appris, où la compression a déjà éliminé une grande partie de la variabilité des pixels bruts. Nous présentons JLT, un Transformer de diffusion latent de 130M sur des codes VAE FLUX.2 figés, et comparons la prédiction du latent propre avec un DiT de prédiction de vitesse apparié, sous les mêmes représentation, architecture et paramètres d'entraînement. Bien que les trois variables x, epsilon et v soient linéairement convertibles pour un temps de corruption fixé, une analyse gaussienne locale montre que la régression de vitesse hérite d'un plancher de covariance cible isotrope et amplifie les directions latentes à faible variance, tandis que la prédiction propre les atténue. Sur ImageNet 256 × 256, JLT-B/1 obtient un FID-50K de 2,50 avec guidage sans classifieur, avec un écart important cible appariée par rapport à la prédiction de vitesse. Ces résultats suggèrent que les cibles de prédiction en diffusion latente sont des choix géométriques dépendants de la représentation, et non des paramétrisations algébriques interchangeables.

English

Flow matching with clean-data prediction has shown that regressing the clean point can exploit low-dimensional structure more effectively than predicting an ambient noised quantity. We ask whether this principle remains useful after images are mapped into a learned latent space, where compression has already removed much of the raw pixel variability. We introduce JLT, a 130M latent diffusion Transformer over frozen FLUX.2 VAE codes, and compare clean-latent prediction with a matched velocity-prediction DiT under the same representation, backbone, and training settings. Although the three variables x, epsilon, and v are linearly convertible for a fixed corruption time, a local Gaussian analysis shows that velocity regression inherits an isotropic target-covariance floor and amplifies low-variance latent directions, while clean prediction damps them. On ImageNet 256 x 256, JLT-B/1 obtains FID-50K 2.50 with classifier-free guidance, with a large matched-target gap over velocity prediction. These results suggest that prediction targets in latent diffusion are representation-dependent geometric choices, rather than interchangeable algebraic parameterizations.