VideoGen-of-Thought: 複数ショットビデオ生成のための共同フレームワーク
VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
December 3, 2024
著者: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim
cs.AI
要旨
現在のビデオ生成モデルは、短いクリップの生成に優れていますが、複数のショットからなる映画のようなビデオの作成にはまだ苦労しています。豊富な計算リソースを背景に大規模なデータで訓練された既存のモデルは、しばしば単一のショット目標で訓練されているため、論理的なストーリーラインや視覚的一貫性を維持するのに不十分であることは驚くべきことではありません。このため、我々は、マルチショットビデオ生成に特化した協調的でトレーニング不要のアーキテクチャであるVideoGen-of-Thought(VGoT)を提案します。VGoTは、次の3つの目標を念頭に設計されています。マルチショットビデオ生成:ビデオ生成プロセスを構造化されたモジュラーシーケンスに分割し、(1)スクリプト生成、つまり簡潔なストーリーを各ショットの詳細なプロンプトに変換すること、(2)キーフレーム生成、キャラクターの描写に忠実な視覚的に一貫したキーフレームを作成すること、および(3)ショットレベルのビデオ生成、つまりスクリプトとキーフレームからの情報をショットに変換すること、(4)スムージングメカニズム、一貫したマルチショット出力を確保するものです。合理的なナラティブデザイン:映画の脚本執筆に触発され、私たちのプロンプト生成アプローチは、論理的な一貫性、キャラクターの発展、およびビデオ全体での物語の流れを確保するために5つの主要なドメインにまたがっています。クロスショットの一貫性:物語から自動的に作成されるアイデンティティ保存(IP)埋め込みを活用することで、時間的およびアイデンティティの一貫性を確保します。さらに、隣接するショットから潜在的な特徴を効果的に組み合わせるリセット境界を統合するクロスショットスムージングメカニズムを取り入れ、滑らかな遷移を実現し、ビデオ全体で視覚的な一貫性を維持します。私たちの実験は、VGoTが高品質で一貫性のあるマルチショットビデオを生成する点で既存のビデオ生成手法を凌駕していることを示しています。
English
Current video generation models excel at generating short clips but still
struggle with creating multi-shot, movie-like videos. Existing models trained
on large-scale data on the back of rich computational resources are
unsurprisingly inadequate for maintaining a logical storyline and visual
consistency across multiple shots of a cohesive script since they are often
trained with a single-shot objective. To this end, we propose
VideoGen-of-Thought (VGoT), a collaborative and training-free architecture
designed specifically for multi-shot video generation. VGoT is designed with
three goals in mind as follows. Multi-Shot Video Generation: We divide the
video generation process into a structured, modular sequence, including (1)
Script Generation, which translates a curt story into detailed prompts for each
shot; (2) Keyframe Generation, responsible for creating visually consistent
keyframes faithful to character portrayals; and (3) Shot-Level Video
Generation, which transforms information from scripts and keyframes into shots;
(4) Smoothing Mechanism that ensures a consistent multi-shot output. Reasonable
Narrative Design: Inspired by cinematic scriptwriting, our prompt generation
approach spans five key domains, ensuring logical consistency, character
development, and narrative flow across the entire video. Cross-Shot
Consistency: We ensure temporal and identity consistency by leveraging
identity-preserving (IP) embeddings across shots, which are automatically
created from the narrative. Additionally, we incorporate a cross-shot smoothing
mechanism, which integrates a reset boundary that effectively combines latent
features from adjacent shots, resulting in smooth transitions and maintaining
visual coherence throughout the video. Our experiments demonstrate that VGoT
surpasses existing video generation methods in producing high-quality,
coherent, multi-shot videos.Summary
AI-Generated Summary