ChatPaper.aiChatPaper

롤링 강제: 실시간 자동회귀 장기 비디오 확산

Rolling Forcing: Autoregressive Long Video Diffusion in Real Time

September 29, 2025
저자: Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu
cs.AI

초록

스트리밍 비디오 생성은 인터랙티브 월드 모델과 신경망 게임 엔진의 기본 구성 요소 중 하나로, 고품질, 저지연, 그리고 시간적으로 일관된 긴 비디오 스트림을 생성하는 것을 목표로 합니다. 그러나 기존의 대부분의 연구는 심각한 오류 누적으로 인해 생성된 스트림 비디오가 장기간에 걸쳐 크게 저하되는 문제를 겪고 있습니다. 우리는 Rolling Forcing이라는 새로운 비디오 생성 기술을 설계하여 최소한의 오류 누적으로 긴 비디오를 스트리밍할 수 있도록 했습니다. Rolling Forcing은 세 가지 새로운 설계를 포함합니다. 첫째, 오류 전파를 가속화하는 개별 프레임의 반복적 샘플링 대신, 점진적으로 증가하는 노이즈 수준으로 여러 프레임을 동시에 디노이징하는 공동 디노이징 방식을 설계했습니다. 이 설계는 인접 프레임 간의 엄격한 인과성을 완화하여 오류 증가를 효과적으로 억제합니다. 둘째, 장기간 스트리밍 비디오 생성 작업에 어텐션 싱크(attention sink) 메커니즘을 도입하여, 모델이 초기 프레임의 키 값 상태를 전역 컨텍스트 앵커로 유지할 수 있게 함으로써 장기적 전역 일관성을 강화했습니다. 셋째, 크게 확장된 디노이징 윈도우에서 몇 단계의 증류를 가능하게 하는 효율적인 훈련 알고리즘을 설계했습니다. 이 알고리즘은 겹치지 않는 윈도우에서 작동하며, 자체 생성된 이력에 기반한 노출 편향을 완화합니다. 광범위한 실험을 통해 Rolling Forcing이 단일 GPU에서 실시간으로 수 분 길이의 비디오를 생성할 수 있으며, 오류 누적이 크게 감소함을 보여줍니다.
English
Streaming video generation, as one fundamental component in interactive world models and neural game engines, aims to generate high-quality, low-latency, and temporally coherent long video streams. However, most existing work suffers from severe error accumulation that often significantly degrades the generated stream videos over long horizons. We design Rolling Forcing, a novel video generation technique that enables streaming long videos with minimal error accumulation. Rolling Forcing comes with three novel designs. First, instead of iteratively sampling individual frames, which accelerates error propagation, we design a joint denoising scheme that simultaneously denoises multiple frames with progressively increasing noise levels. This design relaxes the strict causality across adjacent frames, effectively suppressing error growth. Second, we introduce the attention sink mechanism into the long-horizon stream video generation task, which allows the model to keep key value states of initial frames as a global context anchor and thereby enhances long-term global consistency. Third, we design an efficient training algorithm that enables few-step distillation over largely extended denoising windows. This algorithm operates on non-overlapping windows and mitigates exposure bias conditioned on self-generated histories. Extensive experiments show that Rolling Forcing enables real-time streaming generation of multi-minute videos on a single GPU, with substantially reduced error accumulation.
PDF133September 30, 2025