AccVideo: 合成データセットによるビデオ拡散モデルの高速化
AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset
March 25, 2025
著者: Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
cs.AI
要旨
拡散モデルはビデオ生成の分野で顕著な進歩を遂げてきました。しかし、その反復的なノイズ除去プロセスは、ビデオを生成するために多数の推論ステップを必要とし、処理速度が遅く計算コストが高いという課題があります。本論文では、既存の拡散蒸留法が抱える課題を詳細に分析し、合成データセットを用いてビデオ拡散モデルの推論ステップを削減し高速化する新しい効率的な手法、AccVideoを提案します。我々は事前学習済みのビデオ拡散モデルを活用し、複数の有効なノイズ除去軌跡を生成して合成データセットとします。これにより、蒸留プロセスにおける無駄なデータポイントの使用を排除します。この合成データセットに基づき、ノイズ除去軌跡から重要なデータポイントを活用してノイズからビデオへのマッピングを学習する、軌跡ベースの少ステップガイダンスを設計し、より少ないステップでのビデオ生成を可能にします。さらに、合成データセットが各拡散タイムステップにおけるデータ分布を捉えていることを活用し、学生モデルの出力分布を合成データセットの分布に整合させるための敵対的学習戦略を導入し、ビデオ品質を向上させます。大規模な実験により、我々のモデルが教師モデルと比較して生成速度で8.5倍の改善を達成しつつ、同等の性能を維持することが実証されました。従来の高速化手法と比較して、本手法はより高品質で高解像度(5秒間、720x1280、24fps)のビデオを生成可能です。
English
Diffusion models have achieved remarkable progress in the field of video
generation. However, their iterative denoising nature requires a large number
of inference steps to generate a video, which is slow and computationally
expensive. In this paper, we begin with a detailed analysis of the challenges
present in existing diffusion distillation methods and propose a novel
efficient method, namely AccVideo, to reduce the inference steps for
accelerating video diffusion models with synthetic dataset. We leverage the
pretrained video diffusion model to generate multiple valid denoising
trajectories as our synthetic dataset, which eliminates the use of useless data
points during distillation. Based on the synthetic dataset, we design a
trajectory-based few-step guidance that utilizes key data points from the
denoising trajectories to learn the noise-to-video mapping, enabling video
generation in fewer steps. Furthermore, since the synthetic dataset captures
the data distribution at each diffusion timestep, we introduce an adversarial
training strategy to align the output distribution of the student model with
that of our synthetic dataset, thereby enhancing the video quality. Extensive
experiments demonstrate that our model achieves 8.5x improvements in generation
speed compared to the teacher model while maintaining comparable performance.
Compared to previous accelerating methods, our approach is capable of
generating videos with higher quality and resolution, i.e., 5-seconds,
720x1280, 24fps.Summary
AI-Generated Summary