ChatPaper.aiChatPaper

Génération de diffusion vidéo longue avec attention croisée segmentée et Curatelle de données vidéo riches en contenu

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

December 2, 2024
Auteurs: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI

Résumé

Nous présentons Presto, un nouveau modèle de diffusion vidéo conçu pour générer des vidéos de 15 secondes avec une cohérence à long terme et un contenu riche. Étendre les méthodes de génération de vidéos pour maintenir la diversité des scénarios sur de longues durées présente des défis importants. Pour y remédier, nous proposons une stratégie d'Attention Croisée Segmentée (SCA), qui divise les états cachés en segments le long de la dimension temporelle, permettant à chaque segment de s'attarder sur une sous-légende correspondante. SCA ne nécessite aucun paramètre supplémentaire, ce qui permet une incorporation transparente dans les architectures actuelles basées sur DiT. Pour faciliter la génération de vidéos longues de haute qualité, nous avons construit le jeu de données LongTake-HD, composé de 261 000 vidéos riches en contenu avec une cohérence de scénario, annotées avec une légende vidéo globale et cinq sous-légendes progressives. Les expériences montrent que notre Presto atteint 78,5 % sur le score sémantique VBench et 100 % sur le Degré Dynamique, surpassant les méthodes de génération de vidéos de pointe existantes. Cela démontre que notre Presto proposé améliore significativement la richesse du contenu, maintient une cohérence à long terme et capture des détails textuels complexes. Plus de détails sont disponibles sur notre page de projet : https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate 15-second videos with long-range coherence and rich content. Extending video generation methods to maintain scenario diversity over long durations presents significant challenges. To address this, we propose a Segmented Cross-Attention (SCA) strategy, which splits hidden states into segments along the temporal dimension, allowing each segment to cross-attend to a corresponding sub-caption. SCA requires no additional parameters, enabling seamless incorporation into current DiT-based architectures. To facilitate high-quality long video generation, we build the LongTake-HD dataset, consisting of 261k content-rich videos with scenario coherence, annotated with an overall video caption and five progressive sub-captions. Experiments show that our Presto achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree, outperforming existing state-of-the-art video generation methods. This demonstrates that our proposed Presto significantly enhances content richness, maintains long-range coherence, and captures intricate textual details. More details are displayed on our project page: https://presto-video.github.io/.

Summary

AI-Generated Summary

PDF92December 3, 2024