JLT: Predição de Latentes Limpos em Transformers de Difusão Latente

Resumo

A correspondência de fluxo com predição de dados limpos demonstrou que regredir o ponto limpo explora a estrutura de baixa dimensão de forma mais eficaz do que prever uma quantidade ruidosa ambiente. Investigamos se esse princípio permanece útil após as imagens serem mapeadas para um espaço latente aprendido, onde a compressão já removeu grande parte da variabilidade bruta dos pixels. Apresentamos o JLT, um Transformer de difusão latente de 130M sobre códigos VAE FLUX.2 congelados, e comparamos a predição de latente limpo com um DiT de predição de velocidade correspondente, sob a mesma representação, arquitetura principal e configurações de treinamento. Embora as três variáveis x, epsilon e v sejam linearmente conversíveis para um tempo de corrupção fixo, uma análise gaussiana local mostra que a regressão de velocidade herda um piso isotrópico de covariância alvo e amplifica direções latentes de baixa variância, enquanto a predição limpa as atenua. No ImageNet 256x256, o JLT-B/1 obtém FID-50K 2,50 com orientação livre de classificador, apresentando uma grande diferença de alvo correspondente em relação à predição de velocidade. Esses resultados sugerem que os alvos de predição em difusão latente são escolhas geométricas dependentes da representação, e não parametrizações algébricas intercambiáveis.

English

Flow matching with clean-data prediction has shown that regressing the clean point can exploit low-dimensional structure more effectively than predicting an ambient noised quantity. We ask whether this principle remains useful after images are mapped into a learned latent space, where compression has already removed much of the raw pixel variability. We introduce JLT, a 130M latent diffusion Transformer over frozen FLUX.2 VAE codes, and compare clean-latent prediction with a matched velocity-prediction DiT under the same representation, backbone, and training settings. Although the three variables x, epsilon, and v are linearly convertible for a fixed corruption time, a local Gaussian analysis shows that velocity regression inherits an isotropic target-covariance floor and amplifies low-variance latent directions, while clean prediction damps them. On ImageNet 256 x 256, JLT-B/1 obtains FID-50K 2.50 with classifier-free guidance, with a large matched-target gap over velocity prediction. These results suggest that prediction targets in latent diffusion are representation-dependent geometric choices, rather than interchangeable algebraic parameterizations.