LoL: ロング・ザン・ロング、映像生成を時間単位に拡張
LoL: Longer than Longer, Scaling Video Generation to Hour
January 23, 2026
著者: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
要旨
近年の長尺動画生成の研究は、双方向モデルから自己回帰モデルへと移行しているが、これらの手法には誤差蓄積と長期的な一貫性の喪失が共通して見られる。性能低下を緩和するためにアテンションシンクフレームが導入されたが、これが「シンク崩壊」と呼ばれる重大な障害を引き起こすことが多い。すなわち、生成内容がシンクフレームに繰り返し回帰し、突然のシーンリセットや循環的な動きパターンが生じる現象である。本研究の分析により、シンク崩壊の原因が、現在の生成モデルで広く用いられるRoPE(Rotary Position Embedding)の周期的構造とマルチヘッドアテンション機構の間の本質的矛盾にあることを明らかにした。この問題に対処するため、ヘッド間のアテンション均質化を打破し長尺崩壊を緩和する「マルチヘッドRoPEジッター」を導入する、軽量かつ学習不要な手法を提案する。大規模な実験により、本手法が生成品質を維持しつつシンク崩壊を効果的に抑制できることを実証した。我々の知る限り、本研究は品質劣化の少ないリアルタイム・ストリーミング・無限長動画生成の初の実現例である。この頑健性を示すため、最大12時間に及ぶ連続動画の生成に成功しており、これは公開されているストリーミング動画生成の成果として最長クラスに位置づけられる。
English
Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.