Генерация длинного видеоряда с сегментированным кросс-вниманием и курированием видеоданных с обильным содержанием.
Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation
December 2, 2024
Авторы: Xin Yan, Yuxuan Cai, Qiuyue Wang, Yuan Zhou, Wenhao Huang, Huan Yang
cs.AI
Аннотация
Мы представляем Presto, новую модель видеодиффузии, разработанную для создания видеороликов продолжительностью 15 секунд с долгосрочной связностью и насыщенным содержанием. Расширение методов генерации видео для поддержания разнообразия сценариев на протяжении длительного времени представляет существенные вызовы. Для решения этой проблемы мы предлагаем стратегию Сегментированного Перекрестного Внимания (SCA), которая разделяет скрытые состояния на сегменты вдоль временного измерения, позволяя каждому сегменту перекрестно взаимодействовать с соответствующим подзаголовком. SCA не требует дополнительных параметров, обеспечивая бесшовное внедрение в существующие архитектуры на основе DiT. Для облегчения генерации долгих видеороликов высокого качества мы создали набор данных LongTake-HD, состоящий из 261 тыс. видеороликов с насыщенным содержанием, обладающих сценарной связностью, аннотированных общим видео-заголовком и пятью постепенными подзаголовками. Эксперименты показывают, что наш Presto достигает 78,5% по семантическому показателю VBench и 100% по Динамической Степени, превосходя существующие передовые методы генерации видео. Это демонстрирует, что наш предложенный Presto значительно улучшает насыщенность контента, поддерживает долгосрочную связность и улавливает тонкие текстовые детали. Более подробная информация доступна на нашей странице проекта: https://presto-video.github.io/.
English
We introduce Presto, a novel video diffusion model designed to generate
15-second videos with long-range coherence and rich content. Extending video
generation methods to maintain scenario diversity over long durations presents
significant challenges. To address this, we propose a Segmented Cross-Attention
(SCA) strategy, which splits hidden states into segments along the temporal
dimension, allowing each segment to cross-attend to a corresponding
sub-caption. SCA requires no additional parameters, enabling seamless
incorporation into current DiT-based architectures. To facilitate high-quality
long video generation, we build the LongTake-HD dataset, consisting of 261k
content-rich videos with scenario coherence, annotated with an overall video
caption and five progressive sub-captions. Experiments show that our Presto
achieves 78.5% on the VBench Semantic Score and 100% on the Dynamic Degree,
outperforming existing state-of-the-art video generation methods. This
demonstrates that our proposed Presto significantly enhances content richness,
maintains long-range coherence, and captures intricate textual details. More
details are displayed on our project page: https://presto-video.github.io/.Summary
AI-Generated Summary