Just-in-Time: Trainingsfreie räumliche Beschleunigung für Diffusion-Transformatoren

Zusammenfassung

Diffusion Transformer haben einen neuen State-of-the-Art in der Bildsynthese etabliert, doch die hohen iterativen Berechnungskosten beim Sampling behindern ihren praktischen Einsatz erheblich. Während bestehende Beschleunigungsmethoden sich oft auf die zeitliche Domäne konzentrieren, übersehen sie die erhebliche räumliche Redundanz, die dem generativen Prozess innewohnt – globale Strukturen entstehen lange bevor feinkörnige Details ausgeformt sind. Die einheitliche Berechnungsbehandlung aller räumlichen Regionen stellt eine kritische Ineffizienz dar. In diesem Artikel stellen wir Just-in-Time (JiT) vor, ein neuartiges, trainingsfreies Framework, das diese Herausforderung durch Beschleunigung in der räumlichen Domäne adressiert. JiT formuliert eine räumlich approximative generative gewöhnliche Differentialgleichung (ODE), die die Entwicklung des vollständigen latenten Zustands auf Basis von Berechnungen einer dynamisch ausgewählten, spärlichen Teilmenge von Anker-Tokens antreibt. Um nahtlose Übergänge zu gewährleisten, wenn neue Tokens zur Erweiterung der Dimensionen des latenten Zustands integriert werden, schlagen wir einen deterministischen Mikro-Flow vor – eine einfache und effektive ODE mit endlicher Zeit, die sowohl strukturelle Kohärenz als auch statistische Korrektheit beibehält. Umfangreiche Experimente mit dem state-of-the-art FLUX.1-dev-Modell demonstrieren, dass JiT eine Beschleunigung von bis zu 7x bei nahezu verlustfreier Leistung erreicht, bestehende Beschleunigungsmethoden signifikant übertrifft und einen neuen und überlegenen Kompromiss zwischen Inferenzgeschwindigkeit und Generierungstreue etabliert.

English

Diffusion Transformers have established a new state-of-the-art in image synthesis, but the high computational cost of iterative sampling severely hampers their practical deployment. While existing acceleration methods often focus on the temporal domain, they overlook the substantial spatial redundancy inherent in the generative process, where global structures emerge long before fine-grained details are formed. The uniform computational treatment of all spatial regions represents a critical inefficiency. In this paper, we introduce Just-in-Time (JiT), a novel training-free framework that addresses this challenge by acceleration in the spatial domain. JiT formulates a spatially approximated generative ordinary differential equation (ODE) that drives the full latent state evolution based on computations from a dynamically selected, sparse subset of anchor tokens. To ensure seamless transitions as new tokens are incorporated to expand the dimensions of the latent state, we propose a deterministic micro-flow, a simple and effective finite-time ODE that maintains both structural coherence and statistical correctness. Extensive experiments on the state-of-the-art FLUX.1-dev model demonstrate that JiT achieves up to a 7x speedup with nearly lossless performance, significantly outperforming existing acceleration methods and establishing a new and superior trade-off between inference speed and generation fidelity.

Just-in-Time: Trainingsfreie räumliche Beschleunigung für Diffusion-Transformatoren

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Zusammenfassung

Support