Langzeit-Videoverteilungserzeugung mit segmentierter Kreuz-Aufmerksamkeit und inhaltsreicher Videodatenkuratierung.
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
December 2, 2024
Autoren: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI
Zusammenfassung
Wir stellen Presto vor, ein neuartiges Video-Diffusionsmodell, das darauf ausgelegt ist, 15-sekündige Videos mit langanhaltender Kohärenz und reichhaltigem Inhalt zu generieren. Die Erweiterung von Methoden zur Videogenerierung, um die Szenarienvielfalt über längere Zeiträume aufrechtzuerhalten, birgt bedeutende Herausforderungen. Um dem entgegenzuwirken, schlagen wir eine Segmentierte Kreuz-Aufmerksamkeits- (SCA) Strategie vor, die die verborgenen Zustände entlang der zeitlichen Dimension in Segmente aufteilt, wodurch jedes Segment auf eine entsprechende Untertitelung kreuz-aufmerksam werden kann. SCA erfordert keine zusätzlichen Parameter und ermöglicht eine nahtlose Integration in aktuelle DiT-basierte Architekturen. Zur Unterstützung der hochwertigen Generierung langer Videos haben wir den LongTake-HD Datensatz erstellt, der aus 261k inhaltsreichen Videos mit Szenariokohärenz besteht, annotiert mit einer Gesamtvideountertitelung und fünf progressiven Untertitelungen. Experimente zeigen, dass unser Presto 78,5% auf der VBench Semantik-Bewertung und 100% auf dem Dynamikgrad erreicht und bestehende modernste Videogenerierungsmethoden übertrifft. Dies zeigt, dass unser vorgeschlagener Presto den Inhaltsreichtum signifikant verbessert, langanhaltende Kohärenz aufrechterhält und komplexe textliche Details erfasst. Weitere Details finden Sie auf unserer Projektseite: https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate
15-second videos with long-range coherence and rich content. Extending video
generation methods to maintain scenario diversity over long durations presents
significant challenges. To address this, we propose a Segmented Cross-Attention
(SCA) strategy, which splits hidden states into segments along the temporal
dimension, allowing each segment to cross-attend to a corresponding
sub-caption. SCA requires no additional parameters, enabling seamless
incorporation into current DiT-based architectures. To facilitate high-quality
long video generation, we build the LongTake-HD dataset, consisting of 261k
content-rich videos with scenario coherence, annotated with an overall video
caption and five progressive sub-captions. Experiments show that our Presto
achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree,
outperforming existing state-of-the-art video generation methods. This
demonstrates that our proposed Presto significantly enhances content richness,
maintains long-range coherence, and captures intricate textual details. More
details are displayed on our project page: https://presto-video.github.io/.Summary
AI-Generated Summary