SketchVideo: スケッチに基づく動画生成と編集
SketchVideo: Sketch-based Video Generation and Editing
March 30, 2025
著者: Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao
cs.AI
要旨
テキストプロンプトや画像に基づくビデオ生成と編集は、大きな進展を遂げてきました。しかし、テキストのみによるグローバルなレイアウトや幾何学的詳細の正確な制御、および画像を通じたモーション制御と局所的な修正のサポートには、依然として課題が残されています。本論文では、スケッチに基づく空間的およびモーション制御を実現し、実写または合成ビデオの細粒度編集をサポートすることを目指します。DiTビデオ生成モデルを基盤として、スキップされたDiTブロックの残差特徴を予測するスケッチ制御ブロックを備えたメモリ効率の高い制御構造を提案します。スケッチは、任意の時間点における1つまたは2つのキーフレームに描画され、容易なインタラクションを可能にします。このような時間的に疎なスケッチ条件をすべてのフレームに伝播させるために、キーフレームと各ビデオフレーム間の関係を分析するフレーム間アテンションメカニズムを提案します。スケッチに基づくビデオ編集のために、新たに編集された内容と元のビデオの空間的特徴および動的モーションの一貫性を維持する追加のビデオ挿入モジュールを設計します。推論時には、未編集領域の正確な保存のために潜在融合を使用します。大規模な実験により、私たちのSketchVideoが制御可能なビデオ生成と編集において優れた性能を発揮することが実証されました。
English
Video generation and editing conditioned on text prompts or images have
undergone significant advancements. However, challenges remain in accurately
controlling global layout and geometry details solely by texts, and supporting
motion control and local modification through images. In this paper, we aim to
achieve sketch-based spatial and motion control for video generation and
support fine-grained editing of real or synthetic videos. Based on the DiT
video generation model, we propose a memory-efficient control structure with
sketch control blocks that predict residual features of skipped DiT blocks.
Sketches are drawn on one or two keyframes (at arbitrary time points) for easy
interaction. To propagate such temporally sparse sketch conditions across all
frames, we propose an inter-frame attention mechanism to analyze the
relationship between the keyframes and each video frame. For sketch-based video
editing, we design an additional video insertion module that maintains
consistency between the newly edited content and the original video's spatial
feature and dynamic motion. During inference, we use latent fusion for the
accurate preservation of unedited regions. Extensive experiments demonstrate
that our SketchVideo achieves superior performance in controllable video
generation and editing.Summary
AI-Generated Summary