ChatPaper.aiChatPaper

VideoSSM: Autoregressieve Lange Videogeneratie met Hybride Toestandsruimtegeheugen

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

December 4, 2025
Auteurs: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI

Samenvatting

Autoregressieve (AR) diffusie maakt streaming, interactieve lange-videogeneratie mogelijk door frames causaal te produceren, maar het handhaven van coherentie over minutenlange tijdshorizons blijft een uitdaging vanwege opgestapelde fouten, motion drift en inhoudsherhaling. Wij benaderen dit probleem vanuit een geheugenperspectief, waarbij we videosynthese behandelen als een recurrent dynamisch proces dat gecoördineerde kortetermijn- en langetermijncontext vereist. Wij stellen VideoSSM voor, een Lang Video Model dat AR-diffusie verenigt met een hybride toestandsruimtegeheugen. Het toestandsruimtemodel (SSM) fungeert als een evoluerend globaal geheugen voor scènedynamiek over de gehele sequentie, terwijl een contextvenster lokaal geheugen biedt voor bewegingsaanwijzingen en fijne details. Dit hybride ontwerp behoudt globale consistentie zonder bevroren, repetitieve patronen, ondersteunt prompt-adaptieve interactie en schaalt in lineaire tijd met de sequentielengte. Experimenten op kort- en langetermijnbenchmarks tonen state-of-the-art temporele consistentie en bewegingsstabiliteit aan onder autoregressieve videogeneratoren, vooral op minutenlange horizons, wat inhoudsdiversiteit en interactieve prompt-gebaseerde controle mogelijk maakt, en zo een schaalbaar, geheugenbewust kader voor lange-videogeneratie vestigt.
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.
PDF32December 13, 2025