JLT: Чисто-латентное предсказание в латентных диффузионных трансформерах

Аннотация

Согласование потоков с прогнозированием чистых данных показало, что регрессия на чистую точку может более эффективно использовать низкоразмерную структуру, чем предсказание зашумленной величины в исходном пространстве. Мы задаемся вопросом, остается ли этот принцип полезным после отображения изображений в обученное латентное пространство, где сжатие уже устранило значительную часть вариативности сырых пикселей. Мы представляем JLT — латентный диффузионный Трансформер на 130M параметров поверх замороженных кодов FLUX.2 VAE — и сравниваем предсказание чистого латентного представления с согласованным DiT, предсказывающим скорость, при одинаковых представлении, архитектуре и условиях обучения. Хотя три переменные x, epsilon и v линейно преобразуемы для фиксированного времени зашумления, локальный гауссов анализ показывает, что регрессия скорости наследует изотропный нижний предел ковариации цели и усиливает латентные направления с низкой дисперсией, тогда как чистое предсказание их подавляет. На ImageNet 256×256 JLT-B/1 достигает FID-50K 2.50 с бесклассовым управлением, демонстрируя значительный разрыв в пользу согласованной цели по сравнению с предсказанием скорости. Эти результаты позволяют предположить, что цели прогнозирования в латентной диффузии являются зависящими от представления геометрическими выборами, а не взаимозаменяемыми алгебраическими параметризациями.

English

Flow matching with clean-data prediction has shown that regressing the clean point can exploit low-dimensional structure more effectively than predicting an ambient noised quantity. We ask whether this principle remains useful after images are mapped into a learned latent space, where compression has already removed much of the raw pixel variability. We introduce JLT, a 130M latent diffusion Transformer over frozen FLUX.2 VAE codes, and compare clean-latent prediction with a matched velocity-prediction DiT under the same representation, backbone, and training settings. Although the three variables x, epsilon, and v are linearly convertible for a fixed corruption time, a local Gaussian analysis shows that velocity regression inherits an isotropic target-covariance floor and amplifies low-variance latent directions, while clean prediction damps them. On ImageNet 256 x 256, JLT-B/1 obtains FID-50K 2.50 with classifier-free guidance, with a large matched-target gap over velocity prediction. These results suggest that prediction targets in latent diffusion are representation-dependent geometric choices, rather than interchangeable algebraic parameterizations.