롤: 더 긴 길이로, 비디오 생성 시간을 시간 단위로 확장하기
LoL: Longer than Longer, Scaling Video Generation to Hour
January 23, 2026
저자: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
초록
장편 비디오 생성 분야의 최근 연구는 양방향 모델에서 자기회귀 모델로 전환되고 있으나, 이러한 방법들은 일반적으로 오류 누적 및 장기적 일관성 상실 문제를 겪고 있습니다. 성능 저하를 완화하기 위해 어텐션 싱크 프레임이 도입되었지만, 이는 종종 '싱크 붕괴(sink-collapse)'라고 명명한 심각한 오류 모드를 유발합니다. 즉 생성된 콘텐츠가 반복적으로 싱크 프레임으로 되돌아가 갑작스러운 장면 재설정과 순환적 운동 패턴을 초래합니다. 우리의 분석에 따르면 싱크 붕괴는 현재 생성 모델에서 널리 사용되는 Rotary Position Embedding(RoPE)의 주기적 구조와 다중 헤드 어텐션 메커니즘 간의 본질적 충돌에서 비롯됩니다. 이를 해결하기 위해 우리는 다중 헤드 RoPE 지터를 도입하여 헤드 간 어텐션 동질화를 깨고 장기적 붕괴를 완화하는 경량의 학습 불필요 방식을 제안합니다. 폭넓은 실험을 통해 우리의 방법이 생성 품질을 유지하면서 싱크 붕괴를 효과적으로 억제함을 입증했습니다. 우리가 알고 있는 바에 따르면, 본 연구는 품질 저하 없이 실시간, 스트리밍, 무한 길이 비디오 생성을 최초로 구현한 사례입니다. 이러한 강건성을 입증하기 위해 우리는 최대 12시간 길이의 연속 비디오를 생성했으며, 이는 공개된 스트리밍 비디오 생성 결과물 중 가장 긴 사례에 해당합니다.
English
Recent research in long-form video generation has shifted from bidirectional to autoregressive models, yet these methods commonly suffer from error accumulation and a loss of long-term coherence. While attention sink frames have been introduced to mitigate this performance decay, they often induce a critical failure mode we term sink-collapse: the generated content repeatedly reverts to the sink frame, resulting in abrupt scene resets and cyclic motion patterns. Our analysis reveals that sink-collapse originates from an inherent conflict between the periodic structure of Rotary Position Embedding (RoPE) and the multi-head attention mechanisms prevalent in current generative models. To address it, we propose a lightweight, training-free approach that effectively suppresses this behavior by introducing multi-head RoPE jitter that breaks inter-head attention homogenization and mitigates long-horizon collapse. Extensive experiments show that our method successfully alleviates sink-collapse while preserving generation quality. To the best of our knowledge, this work achieves the first demonstration of real-time, streaming, and infinite-length video generation with little quality decay. As an illustration of this robustness, we generate continuous videos up to 12 hours in length, which, to our knowledge, is among the longest publicly demonstrated results in streaming video generation.