Just-in-Time: Trainingsvrije ruimtelijke versnelling voor Diffusion Transformers

Samenvatting

Diffusion Transformers hebben een nieuwe standaard gevestigd in beeldgeneratie, maar de hoge rekencost van iteratieve sampling belemmert hun praktische inzet aanzienlijk. Hoewel bestaande versnellingsmethoden zich vaak richten op het temporele domein, negeren ze de aanzienlijke ruimtelijke redundantie die inherent is aan het generatieve proces, waarbij globale structuren al lang voordat fijne details worden gevormd zichtbaar worden. De uniforme computationele behandeling van alle ruimtelijke regio's vormt een kritieke inefficiëntie. In dit artikel introduceren we Just-in-Time (JiT), een nieuw trainingsvrij raamwerk dat deze uitdaging aanpakt door versnelling in het ruimtelijke domein. JiT formuleert een ruimtelijk benaderde generatieve gewone differentiaalvergelijking (ODE) die de volledige latente tostandsevolutie aanstuurt op basis van berekeningen vanuit een dynamisch geselecteerde, schaarse subset van anker-tokens. Om naadloze overgangen te garanderen wanneer nieuwe tokens worden geïntegreerd om de dimensies van de latente toestand uit te breiden, stellen we een deterministische micro-flow voor, een eenvoudige en effectieve ODE met eindige tijd die zowel structurele coherentie als statistische correctheid behoudt. Uitgebreide experimenten met het state-of-the-art FLUX.1-dev-model tonen aan dat JiT een versnelling tot 7x bereikt met nagenoeg verliesloze prestaties, waardoor het bestaande versnellingsmethoden significant overtreft en een nieuwe en superieure balans vestigt tussen inferentiesnelheid en generatiefideliteit.

English

Diffusion Transformers have established a new state-of-the-art in image synthesis, but the high computational cost of iterative sampling severely hampers their practical deployment. While existing acceleration methods often focus on the temporal domain, they overlook the substantial spatial redundancy inherent in the generative process, where global structures emerge long before fine-grained details are formed. The uniform computational treatment of all spatial regions represents a critical inefficiency. In this paper, we introduce Just-in-Time (JiT), a novel training-free framework that addresses this challenge by acceleration in the spatial domain. JiT formulates a spatially approximated generative ordinary differential equation (ODE) that drives the full latent state evolution based on computations from a dynamically selected, sparse subset of anchor tokens. To ensure seamless transitions as new tokens are incorporated to expand the dimensions of the latent state, we propose a deterministic micro-flow, a simple and effective finite-time ODE that maintains both structural coherence and statistical correctness. Extensive experiments on the state-of-the-art FLUX.1-dev model demonstrate that JiT achieves up to a 7x speedup with nearly lossless performance, significantly outperforming existing acceleration methods and establishing a new and superior trade-off between inference speed and generation fidelity.

Just-in-Time: Trainingsvrije ruimtelijke versnelling voor Diffusion Transformers

Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Samenvatting

Support