FIFO-Diffusion: トレーニングなしでテキストから無限の動画を生成する
FIFO-Diffusion: Generating Infinite Videos from Text without Training
May 19, 2024
著者: Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han
cs.AI
要旨
テキスト条件付き動画生成のための、事前学習済み拡散モデルに基づく新しい推論手法を提案する。我々のアプローチであるFIFO-Diffusionは、訓練なしに無限に長い動画を生成することが概念的に可能である。これは、キュー内で連続する一連のフレームを増加するノイズレベルで同時に処理する対角線的ノイズ除去を反復的に行うことで実現される。本手法では、先頭から完全にノイズ除去されたフレームをデキューし、末尾に新しいランダムノイズフレームをエンキューする。しかし、対角線的ノイズ除去は諸刃の剣であり、末尾に近いフレームは前方参照によってクリーンなフレームを活用できる一方で、そのような戦略は訓練と推論の間の不一致を引き起こす。そこで、訓練と推論のギャップを軽減するための潜在分割と、前方参照の利点を活用するための先読みノイズ除去を導入する。既存のテキストから動画生成のベースラインにおいて、提案手法の有望な結果と有効性を実証した。
English
We propose a novel inference technique based on a pretrained diffusion model
for text-conditional video generation. Our approach, called FIFO-Diffusion, is
conceptually capable of generating infinitely long videos without training.
This is achieved by iteratively performing diagonal denoising, which
concurrently processes a series of consecutive frames with increasing noise
levels in a queue; our method dequeues a fully denoised frame at the head while
enqueuing a new random noise frame at the tail. However, diagonal denoising is
a double-edged sword as the frames near the tail can take advantage of cleaner
ones by forward reference but such a strategy induces the discrepancy between
training and inference. Hence, we introduce latent partitioning to reduce the
training-inference gap and lookahead denoising to leverage the benefit of
forward referencing. We have demonstrated the promising results and
effectiveness of the proposed methods on existing text-to-video generation
baselines.Summary
AI-Generated Summary