ChatPaper.aiChatPaper

FasterCache: 高品質なトレーニング不要のビデオ拡散モデルの高速化

FasterCache: Training-Free Video Diffusion Model Acceleration with High Quality

October 25, 2024
著者: Zhengyao Lv, Chenyang Si, Junhao Song, Zhenyu Yang, Yu Qiao, Ziwei Liu, Kwan-Yee K. Wong
cs.AI

要旨

本論文では、高品質の生成を加速させるために設計されたトレーニング不要の新しい戦略である「FasterCache」を提案します。既存のキャッシュベースの手法を分析することで、隣接するステップの特徴を直接再利用することが微妙な変化の損失を引き起こすことがわかりました。さらに、分類器を使用しないガイダンス(CFG)の加速ポテンシャルを先駆的に調査し、同じタイムステップ内の条件付きと無条件の特徴の間に重要な冗長性があることを明らかにしました。これらの観察を活かし、Diffusionベースのビデオ生成を大幅に加速するためにFasterCacheを導入します。主な貢献には、特徴の差異と時間的連続性の両方を保持する動的特徴再利用戦略、およびビデオ品質を損なうことなく推論速度をさらに向上させるために条件付きと無条件の出力の再利用を最適化するCFG-Cacheが含まれます。我々は最近のビデオDiffusionモデルでFasterCacheを実験的に評価しました。実験結果は、FasterCacheがビデオ生成を著しく加速できること(例:Vchitect-2.0で1.67倍の高速化)を示し、ビデオ品質をベースラインと比較して同等に保ちながら、推論速度とビデオ品質の両方で既存の手法を一貫して上回ることを示しています。
English
In this paper, we present \textit{FasterCache}, a novel training-free strategy designed to accelerate the inference of video diffusion models with high-quality generation. By analyzing existing cache-based methods, we observe that directly reusing adjacent-step features degrades video quality due to the loss of subtle variations. We further perform a pioneering investigation of the acceleration potential of classifier-free guidance (CFG) and reveal significant redundancy between conditional and unconditional features within the same timestep. Capitalizing on these observations, we introduce FasterCache to substantially accelerate diffusion-based video generation. Our key contributions include a dynamic feature reuse strategy that preserves both feature distinction and temporal continuity, and CFG-Cache which optimizes the reuse of conditional and unconditional outputs to further enhance inference speed without compromising video quality. We empirically evaluate FasterCache on recent video diffusion models. Experimental results show that FasterCache can significantly accelerate video generation (\eg 1.67times speedup on Vchitect-2.0) while keeping video quality comparable to the baseline, and consistently outperform existing methods in both inference speed and video quality.

Summary

AI-Generated Summary

PDF232November 16, 2024