画像を用いない連続時間整合性に基づく軌道サンプリングペアによるタイムステップ蒸留
Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs
November 25, 2025
著者: Bao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang
cs.AI
要旨
タイムステップ蒸留は、拡散モデルの生成効率を向上させる効果的な手法である。軌道ベースのフレームワークとしてのConsistency Model(CM)は、強固な理論的基盤と高品質な少数ステップ生成により、大きな可能性を示している。しかしながら、現在の連続時間整合性蒸留手法は、依然として訓練データと計算資源に大きく依存しており、リソースが限られた環境での展開を妨げ、多様な領域への拡張性を制限している。この問題を解決するため、我々はTrajectory-Backward Consistency Model(TBCM)を提案する。TBCMは、教師モデルの生成軌道から直接潜在表現を抽出することで、外部の訓練データへの依存を排除する。VAEエンコーディングや大規模データセットを必要とする従来手法とは異なり、この自己完結型の蒸留パラダイムは効率性と簡潔性を大幅に向上させる。さらに、軌道から抽出されたサンプルは、訓練と推論の間の分布ギャップを自然に埋めるため、より効果的な知識転移を可能にする。実験では、TBCMは1ステップ生成においてMJHQ-30kデータセットでFID 6.52、CLIPスコア28.08を達成し、Sana-Sprintと比較して訓練時間を約40%削減し、大量のGPUメモリを節約し、品質を損なうことなく優れた効率性を示した。さらに、我々は連続時間整合性蒸留における拡散-生成空間の不一致を明らかにし、サンプリング戦略が蒸留性能に与える影響を分析し、将来の蒸留研究への示唆を提供する。GitHubリンク:https://github.com/hustvl/TBCM。
English
Timestep distillation is an effective approach for improving the generation efficiency of diffusion models. The Consistency Model (CM), as a trajectory-based framework, demonstrates significant potential due to its strong theoretical foundation and high-quality few-step generation. Nevertheless, current continuous-time consistency distillation methods still rely heavily on training data and computational resources, hindering their deployment in resource-constrained scenarios and limiting their scalability to diverse domains. To address this issue, we propose Trajectory-Backward Consistency Model (TBCM), which eliminates the dependence on external training data by extracting latent representations directly from the teacher model's generation trajectory. Unlike conventional methods that require VAE encoding and large-scale datasets, our self-contained distillation paradigm significantly improves both efficiency and simplicity. Moreover, the trajectory-extracted samples naturally bridge the distribution gap between training and inference, thereby enabling more effective knowledge transfer. Empirically, TBCM achieves 6.52 FID and 28.08 CLIP scores on MJHQ-30k under one-step generation, while reducing training time by approximately 40% compared to Sana-Sprint and saving a substantial amount of GPU memory, demonstrating superior efficiency without sacrificing quality. We further reveal the diffusion-generation space discrepancy in continuous-time consistency distillation and analyze how sampling strategies affect distillation performance, offering insights for future distillation research. GitHub Link: https://github.com/hustvl/TBCM.