I4VGen: テキストからビデオ生成へのステップストーンとしての画像
I4VGen: Image as Stepping Stone for Text-to-Video Generation
June 4, 2024
著者: Xiefan Guo, Jinlin Liu, Miaomiao Cui, Di Huang
cs.AI
要旨
テキストからビデオ生成は、時空間モデリングの複雑さとビデオ-テキストデータセットの限界により、テキストから画像合成に比べて品質と多様性の面で遅れを取ってきました。本論文では、I4VGenというトレーニング不要でプラグアンドプレイ可能なビデオ拡散推論フレームワークを提案します。これは、堅牢な画像技術を活用することでテキストからビデオ生成を強化します。具体的には、テキストから画像を経てビデオへという流れに従い、I4VGenはテキストからビデオ生成を2つの段階に分解します:アンカー画像合成とアンカー画像誘導型ビデオ合成です。これに対応して、視覚的にリアルで意味的に忠実なアンカー画像を実現するために、よく設計された生成-選択パイプラインが採用され、画像を動的なビデオにアニメーション化するために革新的なノイズ不変ビデオスコア蒸留サンプリングが組み込まれ、その後ビデオ再生成プロセスによってビデオが洗練されます。この推論戦略は、非ゼロ終端信号対雑音比という普遍的な問題を効果的に緩和します。広範な評価により、I4VGenがより高い視覚的リアリズムとテキスト的忠実性を持つビデオを生成するだけでなく、既存の画像からビデオへの拡散モデルにシームレスに統合され、全体的なビデオ品質を向上させることが示されています。
English
Text-to-video generation has lagged behind text-to-image synthesis in quality
and diversity due to the complexity of spatio-temporal modeling and limited
video-text datasets. This paper presents I4VGen, a training-free and
plug-and-play video diffusion inference framework, which enhances text-to-video
generation by leveraging robust image techniques. Specifically, following
text-to-image-to-video, I4VGen decomposes the text-to-video generation into two
stages: anchor image synthesis and anchor image-guided video synthesis.
Correspondingly, a well-designed generation-selection pipeline is employed to
achieve visually-realistic and semantically-faithful anchor image, and an
innovative Noise-Invariant Video Score Distillation Sampling is incorporated to
animate the image to a dynamic video, followed by a video regeneration process
to refine the video. This inference strategy effectively mitigates the
prevalent issue of non-zero terminal signal-to-noise ratio. Extensive
evaluations show that I4VGen not only produces videos with higher visual
realism and textual fidelity but also integrates seamlessly into existing
image-to-video diffusion models, thereby improving overall video quality.Summary
AI-Generated Summary