Just-in-Time: Пространственное ускорение диффузионных трансформеров без обучения

Аннотация

Диффузионные трансформаторы установили новый уровень современных достижений в синтезе изображений, однако высокая вычислительная стоимость итеративной выборки серьезно ограничивает их практическое применение. В то время как существующие методы ускорения часто сосредоточены на временной области, они упускают из виду значительную пространственную избыточность, присущую самому процессу генерации, когда глобальные структуры формируются задолго до появления мелких деталей. Единообразная вычислительная обработка всех пространственных областей представляет собой критическую неэффективность. В данной статье мы представляем Just-in-Time (JiT) — новую framework-систему, не требующую дообучения, которая решает эту проблему за счет ускорения в пространственной области. JiT формулирует пространственно аппроксимированное генеративное обыкновенное дифференциальное уравнение (ОДУ), которое управляет эволюцией полного латентного состояния на основе вычислений из динамически выбираемого разреженного подмножества якорных токенов. Для обеспечения плавных переходов по мере включения новых токенов для расширения размерности латентного состояния мы предлагаем детерминированный микро-поток — простое и эффективное ОДУ с конечным временем решения, которое сохраняет как структурную целостность, так и статистическую корректность. Многочисленные эксперименты на передовой модели FLUX.1-dev демонстрируют, что JiT обеспечивает ускорение до 7 раз практически без потерь в качестве, значительно превосходя существующие методы ускорения и устанавливая новое, превосходное соотношение между скоростью вывода и точностью генерации.

English

Diffusion Transformers have established a new state-of-the-art in image synthesis, but the high computational cost of iterative sampling severely hampers their practical deployment. While existing acceleration methods often focus on the temporal domain, they overlook the substantial spatial redundancy inherent in the generative process, where global structures emerge long before fine-grained details are formed. The uniform computational treatment of all spatial regions represents a critical inefficiency. In this paper, we introduce Just-in-Time (JiT), a novel training-free framework that addresses this challenge by acceleration in the spatial domain. JiT formulates a spatially approximated generative ordinary differential equation (ODE) that drives the full latent state evolution based on computations from a dynamically selected, sparse subset of anchor tokens. To ensure seamless transitions as new tokens are incorporated to expand the dimensions of the latent state, we propose a deterministic micro-flow, a simple and effective finite-time ODE that maintains both structural coherence and statistical correctness. Extensive experiments on the state-of-the-art FLUX.1-dev model demonstrate that JiT achieves up to a 7x speedup with nearly lossless performance, significantly outperforming existing acceleration methods and establishing a new and superior trade-off between inference speed and generation fidelity.

Just-in-Time: Пространственное ускорение диффузионных трансформеров без обучения

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Аннотация

Support