Lange Videoverspreiding Generatie met Gesegmenteerde Kruislingse Aandacht en Inhoudsrijke Videogegevenscuratie

Samenvatting

We introduceren Presto, een nieuw videodiffusiemodel dat is ontworpen om 15-seconden video's te genereren met lange-afstandscoherentie en rijke inhoud. Het uitbreiden van videogeneratiemethoden om scenario diversiteit over lange duur te behouden, brengt aanzienlijke uitdagingen met zich mee. Om dit aan te pakken, stellen we een Gesegmenteerde Kruislingse Aandacht (SCA) strategie voor, die verborgen toestanden opsplitst in segmenten langs de temporale dimensie, waardoor elk segment kan kruis-attenderen op een overeenkomstige ondertitel. SCA vereist geen extra parameters, waardoor naadloze integratie in huidige op DiT gebaseerde architecturen mogelijk is. Om hoogwaardige lange videogeneratie te vergemakkelijken, hebben we de LongTake-HD dataset opgebouwd, bestaande uit 261k inhoudsrijke video's met scenario coherentie, geannoteerd met een algehele videobijschrift en vijf progressieve subbijschriften. Experimenten tonen aan dat onze Presto 78.5% behaalt op de VBench Semantische Score en 100% op de Dynamische Graad, waarbij bestaande state-of-the-art videogeneratiemethoden overtreft. Dit toont aan dat onze voorgestelde Presto de inhoudsrijkdom aanzienlijk verbetert, lange-afstandscoherentie behoudt en complexe tekstuele details vastlegt. Meer details zijn te vinden op onze projectpagina: https://presto-video.github.io/.

English

We introduce Presto, a novel video diffusion model designed to generate 15-second videos with long-range coherence and rich content. Extending video generation methods to maintain scenario diversity over long durations presents significant challenges. To address this, we propose a Segmented Cross-Attention (SCA) strategy, which splits hidden states into segments along the temporal dimension, allowing each segment to cross-attend to a corresponding sub-caption. SCA requires no additional parameters, enabling seamless incorporation into current DiT-based architectures. To facilitate high-quality long video generation, we build the LongTake-HD dataset, consisting of 261k content-rich videos with scenario coherence, annotated with an overall video caption and five progressive sub-captions. Experiments show that our Presto achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree, outperforming existing state-of-the-art video generation methods. This demonstrates that our proposed Presto significantly enhances content richness, maintains long-range coherence, and captures intricate textual details. More details are displayed on our project page: https://presto-video.github.io/.

Lange Videoverspreiding Generatie met Gesegmenteerde Kruislingse Aandacht en Inhoudsrijke Videogegevenscuratie

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation

Samenvatting

Support