ビデオ生成のための次フレーム予測モデルにおける入力フレームコンテキストのパッキング
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
April 17, 2025
著者: Lvmin Zhang, Maneesh Agrawala
cs.AI
要旨
本論文では、ビデオ生成のための次フレーム(または次フレームセクション)予測モデルを学習するためのニューラルネットワーク構造「FramePack」を提案します。FramePackは入力フレームを圧縮し、ビデオの長さに関わらずトランスフォーマーのコンテキスト長を固定数にします。その結果、画像拡散と同程度の計算ボトルネックで、多数のフレームをビデオ拡散を用いて処理することが可能になります。これにより、トレーニング時のビデオバッチサイズも大幅に増加し(バッチサイズが画像拡散トレーニングと同等になります)、また、エクスポージャーバイアス(反復処理における誤差の蓄積)を回避するために、早期に終端点を設定し、逆時間順でフレームを生成する「アンチドリフトサンプリング法」を提案します。最後に、既存のビデオ拡散モデルをFramePackでファインチューニング可能であり、次フレーム予測がよりバランスの取れた拡散スケジューラをサポートし、極端なフローシフトタイムステップを減らすことで視覚品質が向上することを示します。
English
We present a neural network structure, FramePack, to train next-frame (or
next-frame-section) prediction models for video generation. The FramePack
compresses input frames to make the transformer context length a fixed number
regardless of the video length. As a result, we are able to process a large
number of frames using video diffusion with computation bottleneck similar to
image diffusion. This also makes the training video batch sizes significantly
higher (batch sizes become comparable to image diffusion training). We also
propose an anti-drifting sampling method that generates frames in inverted
temporal order with early-established endpoints to avoid exposure bias (error
accumulation over iterations). Finally, we show that existing video diffusion
models can be finetuned with FramePack, and their visual quality may be
improved because the next-frame prediction supports more balanced diffusion
schedulers with less extreme flow shift timesteps.Summary
AI-Generated Summary