JLT: Predicción de Latentes Limpios en Transformadores de Difusión Latente

Resumen

El emparejamiento de flujo con predicción de datos limpios ha demostrado que la regresión del punto limpio puede explotar la estructura de baja dimensionalidad de manera más efectiva que predecir una cantidad ruidosa en el espacio ambiente. Nos preguntamos si este principio sigue siendo útil después de que las imágenes se mapean en un espacio latente aprendido, donde la compresión ya ha eliminado gran parte de la variabilidad de píxeles en bruto. Presentamos JLT, un Transformer de difusión latente de 130M sobre códigos VAE congelados de FLUX.2, y comparamos la predicción de latentes limpios con un DiT de predicción de velocidad equivalente bajo la misma representación, arquitectura base y condiciones de entrenamiento. Aunque las tres variables x, ε y v son linealmente convertibles para un tiempo de corrupción fijo, un análisis gaussiano local muestra que la regresión de velocidad hereda un piso de covarianza objetivo isotrópico y amplifica las direcciones latentes de baja varianza, mientras que la predicción limpia las amortigua. En ImageNet 256 × 256, JLT-B/1 obtiene un FID-50K de 2.50 con guía libre de clasificador, con una gran brecha objetivo coincidente respecto a la predicción de velocidad. Estos resultados sugieren que los objetivos de predicción en la difusión latente son elecciones geométricas dependientes de la representación, no parametrizaciones algebraicas intercambiables.

English

Flow matching with clean-data prediction has shown that regressing the clean point can exploit low-dimensional structure more effectively than predicting an ambient noised quantity. We ask whether this principle remains useful after images are mapped into a learned latent space, where compression has already removed much of the raw pixel variability. We introduce JLT, a 130M latent diffusion Transformer over frozen FLUX.2 VAE codes, and compare clean-latent prediction with a matched velocity-prediction DiT under the same representation, backbone, and training settings. Although the three variables x, epsilon, and v are linearly convertible for a fixed corruption time, a local Gaussian analysis shows that velocity regression inherits an isotropic target-covariance floor and amplifies low-variance latent directions, while clean prediction damps them. On ImageNet 256 x 256, JLT-B/1 obtains FID-50K 2.50 with classifier-free guidance, with a large matched-target gap over velocity prediction. These results suggest that prediction targets in latent diffusion are representation-dependent geometric choices, rather than interchangeable algebraic parameterizations.