ChatPaper.aiChatPaper

LinGen: К высокоразрешенной генерации видео по тексту продолжительностью в минуту с линейной вычислительной сложностью

LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity

December 13, 2024
Авторы: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai
cs.AI

Аннотация

Генерация видео по тексту улучшает процесс создания контента, но требует значительных вычислительных ресурсов: вычислительные затраты Диффузионных Трансформеров (DiTs) масштабируются квадратично от количества пикселей. Это делает генерацию видео длительностью в минуту чрезвычайно дорогостоящей, ограничивая большинство существующих моделей генерацией видео длительностью всего 10-20 секунд. Мы предлагаем рамочную модель Генерации видео по тексту с линейной сложностью (LinGen), затраты которой масштабируются линейно от количества пикселей. Впервые LinGen позволяет генерировать видео высокого разрешения длительностью в минуту на одном графическом процессоре без ущерба качеству. Она заменяет вычислительно доминирующий и квадратично сложный блок самовнимания на линейно сложный блок под названием MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на короткие и длинные корреляции, объединяя двунаправленный блок Mamba2 с нашим методом перестановки токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь представляет собой новый блок внимания TEmporal Swin, который фокусируется на временных корреляциях между смежными токенами и токенами среднего диапазона. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает последовательность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с победным процентом 75,6%) по качеству видео с сокращением числа операций с плавающей запятой (задержки) до 15 раз (11,5 раз). Кроме того, как автоматические метрики, так и оценка людей демонстрируют, что наш LinGen-4B обеспечивает сопоставимое качество видео с передовыми моделями (с победным процентом 50,5%, 52,1%, 49,1% по отношению к Gen-3, LumaLabs и Kling соответственно). Это открывает путь к созданию фильмов длительностью в час и генерации видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем веб-сайте проекта: https://lineargen.github.io/.
English
Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15times (11.5times) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.

Summary

AI-Generated Summary

PDF104December 16, 2024