ChatPaper.aiChatPaper

セグメンテッドクロスアテンションとコンテンツ豊富なビデオデータキュレーションを用いた長尺ビデオ生成

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

December 2, 2024
著者: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI

要旨

Prestoは、長期の一貫性と豊富なコンテンツを持つ15秒の動画を生成するために設計された革新的なビデオ拡散モデルを紹介します。シナリオの多様性を長時間維持するためにビデオ生成手法を拡張することは、重要な課題を提起します。この課題に対処するために、我々はSegmented Cross-Attention(SCA)戦略を提案します。これは、隠れた状態を時間的次元に沿ってセグメントに分割し、各セグメントが対応するサブキャプションにクロスアテンションできるようにします。SCAには追加のパラメータが不要であり、現在のDiTベースのアーキテクチャにシームレスに組み込むことができます。高品質な長い動画生成を容易にするために、我々はLongTake-HDデータセットを構築しました。これには、シナリオの一貫性を持ち、全体のビデオキャプションと5つの進行的なサブキャプションで注釈付けされた26.1万本のコンテンツ豊かな動画が含まれています。実験結果によると、当社のPrestoはVBench Semantic Scoreで78.5%、Dynamic Degreeで100%を達成し、既存の最先端のビデオ生成手法を凌駕しています。これは、当社の提案するPrestoがコンテンツの豊かさを大幅に向上させ、長期の一貫性を維持し、複雑なテキストの詳細を捉えていることを示しています。詳細は、弊社のプロジェクトページでご確認いただけます:https://presto-video.github.io/。
English
We introduce Presto, a novel video diffusion model designed to generate 15-second videos with long-range coherence and rich content. Extending video generation methods to maintain scenario diversity over long durations presents significant challenges. To address this, we propose a Segmented Cross-Attention (SCA) strategy, which splits hidden states into segments along the temporal dimension, allowing each segment to cross-attend to a corresponding sub-caption. SCA requires no additional parameters, enabling seamless incorporation into current DiT-based architectures. To facilitate high-quality long video generation, we build the LongTake-HD dataset, consisting of 261k content-rich videos with scenario coherence, annotated with an overall video caption and five progressive sub-captions. Experiments show that our Presto achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree, outperforming existing state-of-the-art video generation methods. This demonstrates that our proposed Presto significantly enhances content richness, maintains long-range coherence, and captures intricate textual details. More details are displayed on our project page: https://presto-video.github.io/.
PDF92December 3, 2024