FIFO-Diffusion: トレーニングなしでテキストから無限の動画を生成するFIFO-Diffusion: Generating Infinite Videos from Text without Training
テキスト条件付き動画生成のための、事前学習済み拡散モデルに基づく新しい推論手法を提案する。我々のアプローチであるFIFO-Diffusionは、訓練なしに無限に長い動画を生成することが概念的に可能である。これは、キュー内で連続する一連のフレームを増加するノイズレベルで同時に処理する対角線的ノイズ除去を反復的に行うことで実現される。本手法では、先頭から完全にノイズ除去されたフレームをデキューし、末尾に新しいランダムノイズフレームをエンキューする。しかし、対角線的ノイズ除去は諸刃の剣であり、末尾に近いフレームは前方参照によってクリーンなフレームを活用できる一方で、そのような戦略は訓練と推論の間の不一致を引き起こす。そこで、訓練と推論のギャップを軽減するための潜在分割と、前方参照の利点を活用するための先読みノイズ除去を導入する。既存のテキストから動画生成のベースラインにおいて、提案手法の有望な結果と有効性を実証した。