Just-in-Time: Aceleración Espacial sin Entrenamiento para Transformadores de Difusión

Resumen

Los Transformadores de Difusión han establecido un nuevo estado del arte en la síntesis de imágenes, pero el alto coste computacional del muestreo iterativo dificulta gravemente su implementación práctica. Si bien los métodos de aceleración existentes suelen centrarse en el dominio temporal, pasan por alto la sustancial redundancia espacial inherente al proceso generativo, donde las estructuras globales emergen mucho antes de que se formen los detalles finos. El tratamiento computacional uniforme de todas las regiones espaciales representa una ineficiencia crítica. En este artículo, presentamos Just-in-Time (JiT), un novedoso marco de trabajo que no requiere entrenamiento y que aborda este desafío mediante la aceleración en el dominio espacial. JiT formula una ecuación diferencial ordinaria (ODE) generativa con aproximación espacial que impulsa la evolución del estado latente completo basándose en cálculos procedentes de un subconjunto disperso y seleccionado dinámicamente de tokens ancla. Para garantizar transiciones fluidas a medida que se incorporan nuevos tokens para expandir las dimensiones del estado latente, proponemos un micro-flujo determinista, una ODE simple y efectiva de tiempo finito que mantiene tanto la coherencia estructural como la corrección estadística. Experimentos exhaustivos en el modelo de última generación FLUX.1-dev demuestran que JiT logra una aceleración de hasta 7x con un rendimiento casi sin pérdidas, superando significativamente a los métodos de aceleración existentes y estableciendo una relación de compromiso nueva y superior entre la velocidad de inferencia y la fidelidad de la generación.

English

Diffusion Transformers have established a new state-of-the-art in image synthesis, but the high computational cost of iterative sampling severely hampers their practical deployment. While existing acceleration methods often focus on the temporal domain, they overlook the substantial spatial redundancy inherent in the generative process, where global structures emerge long before fine-grained details are formed. The uniform computational treatment of all spatial regions represents a critical inefficiency. In this paper, we introduce Just-in-Time (JiT), a novel training-free framework that addresses this challenge by acceleration in the spatial domain. JiT formulates a spatially approximated generative ordinary differential equation (ODE) that drives the full latent state evolution based on computations from a dynamically selected, sparse subset of anchor tokens. To ensure seamless transitions as new tokens are incorporated to expand the dimensions of the latent state, we propose a deterministic micro-flow, a simple and effective finite-time ODE that maintains both structural coherence and statistical correctness. Extensive experiments on the state-of-the-art FLUX.1-dev model demonstrate that JiT achieves up to a 7x speedup with nearly lossless performance, significantly outperforming existing acceleration methods and establishing a new and superior trade-off between inference speed and generation fidelity.

Just-in-Time: Aceleración Espacial sin Entrenamiento para Transformadores de Difusión

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Resumen

Support