ChatPaper.aiChatPaper

Langzeit-Videoverteilungserzeugung mit segmentierter Kreuz-Aufmerksamkeit und inhaltsreicher Videodatenkuratierung.

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

December 2, 2024
Autoren: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI

Zusammenfassung

Wir stellen Presto vor, ein neuartiges Video-Diffusionsmodell, das darauf ausgelegt ist, 15-sekündige Videos mit langanhaltender Kohärenz und reichhaltigem Inhalt zu generieren. Die Erweiterung von Methoden zur Videogenerierung, um die Szenarienvielfalt über längere Zeiträume aufrechtzuerhalten, birgt bedeutende Herausforderungen. Um dem entgegenzuwirken, schlagen wir eine Segmentierte Kreuz-Aufmerksamkeits- (SCA) Strategie vor, die die verborgenen Zustände entlang der zeitlichen Dimension in Segmente aufteilt, wodurch jedes Segment auf eine entsprechende Untertitelung kreuz-aufmerksam werden kann. SCA erfordert keine zusätzlichen Parameter und ermöglicht eine nahtlose Integration in aktuelle DiT-basierte Architekturen. Zur Unterstützung der hochwertigen Generierung langer Videos haben wir den LongTake-HD Datensatz erstellt, der aus 261k inhaltsreichen Videos mit Szenariokohärenz besteht, annotiert mit einer Gesamtvideountertitelung und fünf progressiven Untertitelungen. Experimente zeigen, dass unser Presto 78,5% auf der VBench Semantik-Bewertung und 100% auf dem Dynamikgrad erreicht und bestehende modernste Videogenerierungsmethoden übertrifft. Dies zeigt, dass unser vorgeschlagener Presto den Inhaltsreichtum signifikant verbessert, langanhaltende Kohärenz aufrechterhält und komplexe textliche Details erfasst. Weitere Details finden Sie auf unserer Projektseite: https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate 15-second videos with long-range coherence and rich content. Extending video generation methods to maintain scenario diversity over long durations presents significant challenges. To address this, we propose a Segmented Cross-Attention (SCA) strategy, which splits hidden states into segments along the temporal dimension, allowing each segment to cross-attend to a corresponding sub-caption. SCA requires no additional parameters, enabling seamless incorporation into current DiT-based architectures. To facilitate high-quality long video generation, we build the LongTake-HD dataset, consisting of 261k content-rich videos with scenario coherence, annotated with an overall video caption and five progressive sub-captions. Experiments show that our Presto achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree, outperforming existing state-of-the-art video generation methods. This demonstrates that our proposed Presto significantly enhances content richness, maintains long-range coherence, and captures intricate textual details. More details are displayed on our project page: https://presto-video.github.io/.

Summary

AI-Generated Summary

PDF92December 3, 2024