細かい動画モーション制御のための軌跡注意
Trajectory Attention for Fine-grained Video Motion Control
November 28, 2024
著者: Zeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan
cs.AI
要旨
最近のビデオ生成の進歩は、ビデオ拡散モデルによって大きく推進されており、カメラの動き制御が視点に合わせたビジュアルコンテンツの作成における重要な課題として浮上しています。本論文では、トラジェクトリアテンションという新しいアプローチを紹介し、利用可能なピクセルの軌跡に沿ってアテンションを行い、細かいカメラの動き制御を実現します。従来の手法とは異なり、しばしば不正確な出力を生じるか、時間的相関を無視する傾向があるが、当該アプローチは、ビデオ生成プロセスに軌跡情報をシームレスに組み込む強力な帰納バイアスを有しています。重要なのは、当該アプローチが、従来の時間的アテンションと並行して補助的な枝としてトラジェクトリアテンションをモデル化している点です。この設計により、元の時間的アテンションとトラジェクトリアテンションが協調して作用し、正確な動き制御と新しいコンテンツ生成能力の両方を確保し、トラジェクトリが部分的にしか利用できない場合に重要です。画像やビデオのカメラ動き制御に関する実験では、高い品質の生成を維持しながら、精度と長距離の一貫性において著しい改善が示されます。さらに、当該アプローチが他のビデオ動き制御タスクに拡張可能であることを示し、例えば最初のフレームによるビデオ編集のようなタスクでは、広範囲な空間および時間範囲でコンテンツの一貫性を維持する点で優れていることを示します。
English
Recent advancements in video generation have been greatly driven by video
diffusion models, with camera motion control emerging as a crucial challenge in
creating view-customized visual content. This paper introduces trajectory
attention, a novel approach that performs attention along available pixel
trajectories for fine-grained camera motion control. Unlike existing methods
that often yield imprecise outputs or neglect temporal correlations, our
approach possesses a stronger inductive bias that seamlessly injects trajectory
information into the video generation process. Importantly, our approach models
trajectory attention as an auxiliary branch alongside traditional temporal
attention. This design enables the original temporal attention and the
trajectory attention to work in synergy, ensuring both precise motion control
and new content generation capability, which is critical when the trajectory is
only partially available. Experiments on camera motion control for images and
videos demonstrate significant improvements in precision and long-range
consistency while maintaining high-quality generation. Furthermore, we show
that our approach can be extended to other video motion control tasks, such as
first-frame-guided video editing, where it excels in maintaining content
consistency over large spatial and temporal ranges.Summary
AI-Generated Summary