Génération de diffusion vidéo longue avec attention croisée segmentée et Curatelle de données vidéo riches en contenu
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
December 2, 2024
Auteurs: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI
Résumé
Nous présentons Presto, un nouveau modèle de diffusion vidéo conçu pour générer des vidéos de 15 secondes avec une cohérence à long terme et un contenu riche. Étendre les méthodes de génération de vidéos pour maintenir la diversité des scénarios sur de longues durées présente des défis importants. Pour y remédier, nous proposons une stratégie d'Attention Croisée Segmentée (SCA), qui divise les états cachés en segments le long de la dimension temporelle, permettant à chaque segment de s'attarder sur une sous-légende correspondante. SCA ne nécessite aucun paramètre supplémentaire, ce qui permet une incorporation transparente dans les architectures actuelles basées sur DiT. Pour faciliter la génération de vidéos longues de haute qualité, nous avons construit le jeu de données LongTake-HD, composé de 261 000 vidéos riches en contenu avec une cohérence de scénario, annotées avec une légende vidéo globale et cinq sous-légendes progressives. Les expériences montrent que notre Presto atteint 78,5 % sur le score sémantique VBench et 100 % sur le Degré Dynamique, surpassant les méthodes de génération de vidéos de pointe existantes. Cela démontre que notre Presto proposé améliore significativement la richesse du contenu, maintient une cohérence à long terme et capture des détails textuels complexes. Plus de détails sont disponibles sur notre page de projet : https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate
15-second videos with long-range coherence and rich content. Extending video
generation methods to maintain scenario diversity over long durations presents
significant challenges. To address this, we propose a Segmented Cross-Attention
(SCA) strategy, which splits hidden states into segments along the temporal
dimension, allowing each segment to cross-attend to a corresponding
sub-caption. SCA requires no additional parameters, enabling seamless
incorporation into current DiT-based architectures. To facilitate high-quality
long video generation, we build the LongTake-HD dataset, consisting of 261k
content-rich videos with scenario coherence, annotated with an overall video
caption and five progressive sub-captions. Experiments show that our Presto
achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree,
outperforming existing state-of-the-art video generation methods. This
demonstrates that our proposed Presto significantly enhances content richness,
maintains long-range coherence, and captures intricate textual details. More
details are displayed on our project page: https://presto-video.github.io/.Summary
AI-Generated Summary