Geração de Difusão de Vídeo Prolongado com Atenção Cruzada Segmentada e Curadoria de Dados de Vídeo Rica em Conteúdo
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
December 2, 2024
Autores: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI
Resumo
Apresentamos o Presto, um novo modelo de difusão de vídeo projetado para gerar vídeos de 15 segundos com coerência de longo alcance e conteúdo rico. Estender métodos de geração de vídeo para manter diversidade de cenários ao longo de longas durações apresenta desafios significativos. Para lidar com isso, propomos uma estratégia de Atenção Cruzada Segmentada (SCA), que divide estados ocultos em segmentos ao longo da dimensão temporal, permitindo que cada segmento atenda cruzadamente a uma legenda correspondente. O SCA não requer parâmetros adicionais, possibilitando a incorporação contínua em arquiteturas atuais baseadas em DiT. Para facilitar a geração de vídeos longos de alta qualidade, construímos o conjunto de dados LongTake-HD, composto por 261 mil vídeos ricos em conteúdo com coerência de cenário, anotados com uma legenda geral de vídeo e cinco sublegendas progressivas. Experimentos mostram que nosso Presto alcança 78,5% no Escore Semântico do VBench e 100% no Grau Dinâmico, superando os métodos de geração de vídeo de última geração existentes. Isso demonstra que nosso Presto proposto aprimora significativamente a riqueza de conteúdo, mantém a coerência de longo alcance e captura detalhes textuais intrincados. Mais detalhes estão disponíveis em nossa página do projeto: https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate
15-second videos with long-range coherence and rich content. Extending video
generation methods to maintain scenario diversity over long durations presents
significant challenges. To address this, we propose a Segmented Cross-Attention
(SCA) strategy, which splits hidden states into segments along the temporal
dimension, allowing each segment to cross-attend to a corresponding
sub-caption. SCA requires no additional parameters, enabling seamless
incorporation into current DiT-based architectures. To facilitate high-quality
long video generation, we build the LongTake-HD dataset, consisting of 261k
content-rich videos with scenario coherence, annotated with an overall video
caption and five progressive sub-captions. Experiments show that our Presto
achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree,
outperforming existing state-of-the-art video generation methods. This
demonstrates that our proposed Presto significantly enhances content richness,
maintains long-range coherence, and captures intricate textual details. More
details are displayed on our project page: https://presto-video.github.io/.Summary
AI-Generated Summary