Generación de Difusión de Video Largo con Atención Cruzada Segmentada y Curación de Datos de Video Rico en Contenido
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
December 2, 2024
Autores: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI
Resumen
Presentamos Presto, un nuevo modelo de difusión de video diseñado para generar videos de 15 segundos con coherencia de largo alcance y contenido rico. Extender los métodos de generación de video para mantener la diversidad de escenarios durante largas duraciones presenta desafíos significativos. Para abordar esto, proponemos una estrategia de Atención Cruzada Segmentada (SCA), que divide los estados ocultos en segmentos a lo largo de la dimensión temporal, permitiendo que cada segmento atienda cruzadamente a una subleyenda correspondiente. SCA no requiere parámetros adicionales, lo que permite su incorporación sin problemas en las arquitecturas basadas en DiT actuales. Para facilitar la generación de videos largos de alta calidad, creamos el conjunto de datos LongTake-HD, que consta de 261k videos ricos en contenido con coherencia de escenario, anotados con una leyenda de video general y cinco sub-leyendas progresivas. Los experimentos muestran que nuestro Presto logra un 78.5% en la Puntuación Semántica de VBench y un 100% en el Grado Dinámico, superando a los métodos de generación de video de vanguardia existentes. Esto demuestra que nuestro Presto propuesto mejora significativamente la riqueza de contenido, mantiene la coherencia de largo alcance y captura detalles textuales intrincados. Más detalles se muestran en nuestra página del proyecto: https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate
15-second videos with long-range coherence and rich content. Extending video
generation methods to maintain scenario diversity over long durations presents
significant challenges. To address this, we propose a Segmented Cross-Attention
(SCA) strategy, which splits hidden states into segments along the temporal
dimension, allowing each segment to cross-attend to a corresponding
sub-caption. SCA requires no additional parameters, enabling seamless
incorporation into current DiT-based architectures. To facilitate high-quality
long video generation, we build the LongTake-HD dataset, consisting of 261k
content-rich videos with scenario coherence, annotated with an overall video
caption and five progressive sub-captions. Experiments show that our Presto
achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree,
outperforming existing state-of-the-art video generation methods. This
demonstrates that our proposed Presto significantly enhances content richness,
maintains long-range coherence, and captures intricate textual details. More
details are displayed on our project page: https://presto-video.github.io/.Summary
AI-Generated Summary