Just-in-Time: Aceleração Espacial Livre de Treinamento para Transformadores de Difusão
Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers
March 11, 2026
Autores: Wenhao Sun, Ji Li, Zhaoqiang Liu
cs.AI
Resumo
Os Transformers de Difusão estabeleceram um novo estado da arte na síntese de imagens, mas o alto custo computacional da amostragem iterativa prejudica severamente sua implantação prática. Embora os métodos de aceleração existentes frequentemente se concentrem no domínio temporal, eles negligenciam a substancial redundância espacial inerente ao processo generativo, onde estruturas globais emergem muito antes que os detalhes refinados sejam formados. O tratamento computacional uniforme de todas as regiões espaciais representa uma ineficiência crítica. Neste artigo, introduzimos o Just-in-Time (JiT), uma nova estrutura livre de treinamento que aborda este desafio através da aceleração no domínio espacial. O JiT formula uma equação diferencial ordinária (EDO) generativa com aproximação espacial que conduz a evolução completa do estado latente com base em computações a partir de um subconjunto esparso e dinamicamente selecionado de tokens âncora. Para garantir transições perfeitas à medida que novos tokens são incorporados para expandir as dimensões do estado latente, propomos um micro-fluxo determinístico, uma EDO de tempo finito simples e eficaz que mantém tanto a coerência estrutural quanto a correção estatística. Experimentos extensivos no modelo de última geração FLUX.1-dev demonstram que o JiT alcança uma aceleração de até 7x com desempenho quase sem perdas, superando significativamente os métodos de aceleração existentes e estabelecendo um novo e superior equilíbrio entre a velocidade de inferência e a fidelidade da geração.
English
Diffusion Transformers have established a new state-of-the-art in image synthesis, but the high computational cost of iterative sampling severely hampers their practical deployment. While existing acceleration methods often focus on the temporal domain, they overlook the substantial spatial redundancy inherent in the generative process, where global structures emerge long before fine-grained details are formed. The uniform computational treatment of all spatial regions represents a critical inefficiency. In this paper, we introduce Just-in-Time (JiT), a novel training-free framework that addresses this challenge by acceleration in the spatial domain. JiT formulates a spatially approximated generative ordinary differential equation (ODE) that drives the full latent state evolution based on computations from a dynamically selected, sparse subset of anchor tokens. To ensure seamless transitions as new tokens are incorporated to expand the dimensions of the latent state, we propose a deterministic micro-flow, a simple and effective finite-time ODE that maintains both structural coherence and statistical correctness. Extensive experiments on the state-of-the-art FLUX.1-dev model demonstrate that JiT achieves up to a 7x speedup with nearly lossless performance, significantly outperforming existing acceleration methods and establishing a new and superior trade-off between inference speed and generation fidelity.