Just-in-Time : Accélération spatiale sans entraînement pour les transformeurs de diffusion

Résumé

Les Transformers de Diffusion ont établi un nouvel état de l'art en synthèse d'images, mais le coût computationnel élevé de l'échantillonnage itératif entrave sévèrement leur déploiement pratique. Si les méthodes d'accélération existantes se concentrent souvent sur le domaine temporel, elles négligent la redondance spatiale substantielle inhérente au processus génératif, où les structures globales émergent bien avant que les détails fins ne se forment. Le traitement computationnel uniforme de toutes les régions spatiales représente une inefficacité critique. Dans cet article, nous présentons Just-in-Time (JiT), un nouveau cadre sans entraînement qui relève ce défi via une accélération dans le domaine spatial. JiT formule une équation différentielle ordinaire (EDO) générative spatialement approximée qui pilote l'évolution complète de l'état latent en se basant sur des calculs issus d'un sous-ensemble sparse et dynamiquement sélectionné de tokens d'ancrage. Pour assurer des transitions transparentes lors de l'incorporation de nouveaux tokens pour étendre les dimensions de l'état latent, nous proposons un micro-flux déterministe, une EDO simple et efficace à temps fini qui maintient à la fois la cohérence structurelle et l'exactitude statistique. Des expériences approfondies sur le modèle FLUX.1-dev, état de l'art, démontrent que JiT permet une accélération allant jusqu'à 7x avec des performances quasi sans perte, surpassant significativement les méthodes d'accélération existantes et établissant un compromis nouveau et supérieur entre la vitesse d'inférence et la fidélité de génération.

English

Diffusion Transformers have established a new state-of-the-art in image synthesis, but the high computational cost of iterative sampling severely hampers their practical deployment. While existing acceleration methods often focus on the temporal domain, they overlook the substantial spatial redundancy inherent in the generative process, where global structures emerge long before fine-grained details are formed. The uniform computational treatment of all spatial regions represents a critical inefficiency. In this paper, we introduce Just-in-Time (JiT), a novel training-free framework that addresses this challenge by acceleration in the spatial domain. JiT formulates a spatially approximated generative ordinary differential equation (ODE) that drives the full latent state evolution based on computations from a dynamically selected, sparse subset of anchor tokens. To ensure seamless transitions as new tokens are incorporated to expand the dimensions of the latent state, we propose a deterministic micro-flow, a simple and effective finite-time ODE that maintains both structural coherence and statistical correctness. Extensive experiments on the state-of-the-art FLUX.1-dev model demonstrate that JiT achieves up to a 7x speedup with nearly lossless performance, significantly outperforming existing acceleration methods and establishing a new and superior trade-off between inference speed and generation fidelity.

Just-in-Time : Accélération spatiale sans entraînement pour les transformeurs de diffusion

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Résumé

Support