Lange Videoverspreiding Generatie met Gesegmenteerde Kruislingse Aandacht en Inhoudsrijke Videogegevenscuratie
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
December 2, 2024
Auteurs: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI
Samenvatting
We introduceren Presto, een nieuw videodiffusiemodel dat is ontworpen om 15-seconden video's te genereren met lange-afstandscoherentie en rijke inhoud. Het uitbreiden van videogeneratiemethoden om scenario diversiteit over lange duur te behouden, brengt aanzienlijke uitdagingen met zich mee. Om dit aan te pakken, stellen we een Gesegmenteerde Kruislingse Aandacht (SCA) strategie voor, die verborgen toestanden opsplitst in segmenten langs de temporale dimensie, waardoor elk segment kan kruis-attenderen op een overeenkomstige ondertitel. SCA vereist geen extra parameters, waardoor naadloze integratie in huidige op DiT gebaseerde architecturen mogelijk is. Om hoogwaardige lange videogeneratie te vergemakkelijken, hebben we de LongTake-HD dataset opgebouwd, bestaande uit 261k inhoudsrijke video's met scenario coherentie, geannoteerd met een algehele videobijschrift en vijf progressieve subbijschriften. Experimenten tonen aan dat onze Presto 78.5% behaalt op de VBench Semantische Score en 100% op de Dynamische Graad, waarbij bestaande state-of-the-art videogeneratiemethoden overtreft. Dit toont aan dat onze voorgestelde Presto de inhoudsrijkdom aanzienlijk verbetert, lange-afstandscoherentie behoudt en complexe tekstuele details vastlegt. Meer details zijn te vinden op onze projectpagina: https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate
15-second videos with long-range coherence and rich content. Extending video
generation methods to maintain scenario diversity over long durations presents
significant challenges. To address this, we propose a Segmented Cross-Attention
(SCA) strategy, which splits hidden states into segments along the temporal
dimension, allowing each segment to cross-attend to a corresponding
sub-caption. SCA requires no additional parameters, enabling seamless
incorporation into current DiT-based architectures. To facilitate high-quality
long video generation, we build the LongTake-HD dataset, consisting of 261k
content-rich videos with scenario coherence, annotated with an overall video
caption and five progressive sub-captions. Experiments show that our Presto
achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree,
outperforming existing state-of-the-art video generation methods. This
demonstrates that our proposed Presto significantly enhances content richness,
maintains long-range coherence, and captures intricate textual details. More
details are displayed on our project page: https://presto-video.github.io/.