JLT: Clean-Latent-Vorhersage in Latent Diffusion Transformers

Zusammenfassung

Flussabgleich mit Vorhersage von sauberen Daten hat gezeigt, dass die Regression des sauberen Punktes niedrigdimensionale Struktur effektiver ausnutzen kann als die Vorhersage einer verrauschten Größe im Umgebungsraum. Wir fragen, ob dieses Prinzip auch dann nützlich bleibt, wenn Bilder in einen erlernten latenten Raum abgebildet werden, in dem die Kompression bereits einen Großteil der Rohpixelvariabilität entfernt hat. Wir stellen JLT vor, einen 130M latenten Diffusionstransformer über feste FLUX.2-VAE-Codes, und vergleichen die Vorhersage von sauberen latenten Größen mit einem dazu passenden, geschwindigkeitsvorhersagenden DiT unter derselben Repräsentation, demselben Rückgrat und denselben Trainingsbedingungen. Obwohl die drei Variablen x, Epsilon und v für eine feste Korruptionszeit linear ineinander umwandelbar sind, zeigt eine lokale Gauß-Analyse, dass die Geschwindigkeitsregression eine isotrope Ziel-Kovarianz-Untergrenze erbt und niedrigvarianze latente Richtungen verstärkt, während die saubere Vorhersage diese dämpft. Auf ImageNet 256×256 erreicht JLT-B/1 mit klassifikatorfreier Steuerung einen FID-50K von 2,50, mit einer großen Lücke zwischen den angepassten Zielen im Vergleich zur Geschwindigkeitsvorhersage. Diese Ergebnisse deuten darauf hin, dass Vorhersageziele in der latenten Diffusion repräsentationsabhängige geometrische Entscheidungen und keine austauschbaren algebraischen Parametrisierungen sind.

English

Flow matching with clean-data prediction has shown that regressing the clean point can exploit low-dimensional structure more effectively than predicting an ambient noised quantity. We ask whether this principle remains useful after images are mapped into a learned latent space, where compression has already removed much of the raw pixel variability. We introduce JLT, a 130M latent diffusion Transformer over frozen FLUX.2 VAE codes, and compare clean-latent prediction with a matched velocity-prediction DiT under the same representation, backbone, and training settings. Although the three variables x, epsilon, and v are linearly convertible for a fixed corruption time, a local Gaussian analysis shows that velocity regression inherits an isotropic target-covariance floor and amplifies low-variance latent directions, while clean prediction damps them. On ImageNet 256 x 256, JLT-B/1 obtains FID-50K 2.50 with classifier-free guidance, with a large matched-target gap over velocity prediction. These results suggest that prediction targets in latent diffusion are representation-dependent geometric choices, rather than interchangeable algebraic parameterizations.