VideoSSM: 하이브리드 상태-공간 메모리를 활용한 자기회귀적 장편 비디오 생성
VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory
December 4, 2025
저자: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI
초록
자기회귀(AR) 확산 모델은 인과적인 방식으로 프레임을 생성하여 스트리밍 및 대화형 장영상 생성이 가능하지만, 누적 오류, 모션 드리프트 및 내용 반복으로 인해 분 단위 시간 범위에서의 일관성 유지는 여전히 과제로 남아 있습니다. 우리는 이 문제를 메모리 관점에서 접근하며, 비디오 합성을 단기 및 장기 맥락의 조정이 필요한 반복적 역학 과정으로 간주합니다. 본 논문에서는 AR 확산과 하이브리드 상태 공간 메모리를 통합한 장영상 모델인 VideoSSM을 제안합니다. 상태 공간 모델(SSM)은 전체 시퀀스에 걸친 장면 역학의 진화하는 글로벌 메모리 역할을 하며, 컨텍스트 윈도우는 모션 단서와 세부 사항을 위한 로컬 메모리를 제공합니다. 이러한 하이브리드 설계는 고정적이고 반복적인 패턴 없이 글로벌 일관성을 유지하며, 프롬프트 적응형 상호작용을 지원하고, 시퀀스 길이에 선형적으로 확장됩니다. 단기 및 장거리 벤치마크에서의 실험은 특히 분 단위 범위에서 자기회귀 비디오 생성기 중 최첨단의 시간적 일관성과 모션 안정성을 입증하며, 다양한 콘텐츠 생성과 프롬프트 기반 대화형 제어를 가능하게 하여 확장 가능한 메모리 인식 장영상 생성 프레임워크를 정립합니다.
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.