ChatPaper.aiChatPaper

LoL: Длиннее, чем длиннее — масштабирование генерации видео до часовой продолжительности

LoL: Longer than Longer, Scaling Video Generation to Hour

January 23, 2026
Авторы: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI

Аннотация

Современные исследования в области генерации длинных видео сместились от двунаправленных моделей к авторегрессионным, однако эти методы часто страдают от накопления ошибок и потери долгосрочной согласованности. Хотя для смягчения этого снижения производительности были введены кадры-приёмники внимания (attention sink frames), они часто вызывают критический режим сбоя, который мы называем коллапсом приёмника: сгенерированное содержание неоднократно возвращается к кадру-приёмнику, что приводит к резким сбросам сцены и циклическим паттернам движения. Наш анализ показывает, что коллапс приёмника возникает из-за inherentного конфликта между периодической структурой позиционного кодирования Rotary (RoPE) и механизмами многоголового внимания, распространёнными в современных генеративных моделях. Для решения этой проблемы мы предлагаем лёгкий подход, не требующий обучения, который эффективно подавляет это поведение за счёт введения дрожания RoPE для нескольких голов, что разрывает гомогенизацию внимания между головами и смягчает коллапс на длинных горизонтах. Многочисленные эксперименты показывают, что наш метод успешно устраняет коллапс приёмника, сохраняя качество генерации. Насколько нам известно, данная работа впервые демонстрирует генерацию видео в реальном времени, с потоковой передачей и бесконечной длительностью без существенного ухудшения качества. В качестве иллюстрации этой устойчивости мы генерируем непрерывные видео длиной до 12 часов, что, насколько нам известно, является одним из самых длинных публично продемонстрированных результатов в области потоковой генерации видео.
English
Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.
PDF152January 31, 2026