롤링 싱크: 자기회귀 비디오 확산 모델에서 제한된 길이 훈련과 무한 테스트 간의 격차 해소
Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion
February 8, 2026
저자: Haodong Li, Shaoteng Liu, Zhe Lin, Manmohan Chandraker
cs.AI
초록
최근 자기회귀(AR) 비디오 확산 모델이 놀라운 성능을 달성했습니다. 그러나 제한된 학습 기간으로 인해 더 긴 시간대에서 테스트할 때 학습-테스트 간극이 발생하며, 이는 빠른 시각적 저하로 이어집니다. 학습 기간 내의 학습-테스트 간극을 연구한 Self Forcing에 이어, 본 연구는 학습 기간을 넘어선 학습-테스트 간극, 즉 학습 중의 제한된 시간대와 테스트 중의 무제한 시간대 사이의 간극을 연구합니다. 무제한 테스트는 어떤 유한한 학습 창을 넘어 확장될 수 있으며, 장시간 비디오 학습은 계산 비용이 많이 들기 때문에, 우리는 이 간극을 해결하기 위한 학습 없는 솔루션을 추구합니다. 학습 없는 솔루션을 탐구하기 위해 우리는 AR 캐시 유지에 대한 체계적인 분석을 수행합니다. 이러한 통찰력은 Rolling Sink를 제안하게 합니다. 단 5초 클립으로 학습된 Self Forcing을 기반으로 하는 Rolling Sink는 테스트 시 AR 비디오 합성을 초장기간(예: 16 FPS 기준 5-30분)으로 효과적으로 확장하며, 일관된 객체, 안정된 색상, 통일된 구조, 부드러운 동작을 달성합니다. 광범위한 실험을 통해 입증된 바와 같이, Rolling Sink는 SOTA 베이스라인 대비 우수한 장기간 시각적 정확도와 시간적 일관성을 달성합니다. 프로젝트 페이지: https://rolling-sink.github.io/
English
Recently, autoregressive (AR) video diffusion models has achieved remarkable performance. However, due to their limited training durations, a train-test gap emerges when testing at longer horizons, leading to rapid visual degradations. Following Self Forcing, which studies the train-test gap within the training duration, this work studies the train-test gap beyond the training duration, i.e., the gap between the limited horizons during training and open-ended horizons during testing. Since open-ended testing can extend beyond any finite training window, and long-video training is computationally expensive, we pursue a training-free solution to bridge this gap. To explore a training-free solution, we conduct a systematic analysis of AR cache maintenance. These insights lead to Rolling Sink. Built on Self Forcing (trained on only 5s clips), Rolling Sink effectively scales the AR video synthesis to ultra-long durations (e.g., 5-30 minutes at 16 FPS) at test time, with consistent subjects, stable colors, coherent structures, and smooth motions. As demonstrated by extensive experiments, Rolling Sink achieves superior long-horizon visual fidelity and temporal consistency compared to SOTA baselines. Project page: https://rolling-sink.github.io/