ジャストインタイム:拡散トランスフォーマーのための学習不要な空間的高速化
Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers
March 11, 2026
著者: Wenhao Sun, Ji Li, Zhaoqiang Liu
cs.AI
要旨
拡散トランスフォーマーは画像合成において新たな最先端技術を確立したが、反復的なサンプリングに伴う高い計算コストが実用化の大きな障壁となっている。既存の高速化手法は時間領域に焦点を当てることが多いが、生成プロセスに内在する空間的な冗長性を見落としている。すなわち、大域的な構造は細部が形成されるずっと前に出現するという特性である。すべての空間領域を均一に計算する現行の手法は非効率性の本質的要因である。本論文では、この課題を空間領域での高速化によって解決する、学習不要の新規フレームワークJust-in-Time(JiT)を提案する。JiTは、動的に選択された疎なアンカートークン群の計算に基づいて潜在状態の完全な進化を駆動する、空間近似された生成常微分方程式(ODE)を定式化する。新たなトークンが組み込まれて潜在状態の次元が拡張される際のシームレスな遷移を保証するため、構造的一貫性と統計的正しさの両方を維持するシンプルで効果的な有限時間ODEである決定論的マイクロフローを提案する。最先端モデルFLUX.1-devを用いた大規模実験により、JiTが最大7倍の高速化をほぼロスなく達成し、既存の高速化手法を大幅に上回る、推論速度と生成精度の間の新たで優れたトレードオフを確立することを実証する。
English
Diffusion Transformers have established a new state-of-the-art in image synthesis, but the high computational cost of iterative sampling severely hampers their practical deployment. While existing acceleration methods often focus on the temporal domain, they overlook the substantial spatial redundancy inherent in the generative process, where global structures emerge long before fine-grained details are formed. The uniform computational treatment of all spatial regions represents a critical inefficiency. In this paper, we introduce Just-in-Time (JiT), a novel training-free framework that addresses this challenge by acceleration in the spatial domain. JiT formulates a spatially approximated generative ordinary differential equation (ODE) that drives the full latent state evolution based on computations from a dynamically selected, sparse subset of anchor tokens. To ensure seamless transitions as new tokens are incorporated to expand the dimensions of the latent state, we propose a deterministic micro-flow, a simple and effective finite-time ODE that maintains both structural coherence and statistical correctness. Extensive experiments on the state-of-the-art FLUX.1-dev model demonstrate that JiT achieves up to a 7x speedup with nearly lossless performance, significantly outperforming existing acceleration methods and establishing a new and superior trade-off between inference speed and generation fidelity.