VideoSSM: Autoregressive Langvideogenerierung mit hybridem Zustandsraum-Speicher
VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory
December 4, 2025
papers.authors: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI
papers.abstract
Autoregressive (AR) Diffusion ermöglicht die Erzeugung von langen Videos in Echtzeit (Streaming) und interaktiv, indem Frames kausal erzeugt werden. Dennoch bleibt die Aufrechterhaltung der Kohärenz über Minuten hinweg eine Herausforderung aufgrund von akkumulierten Fehlern, Bewegungsdrift und Inhaltswiederholungen. Wir nähern uns diesem Problem aus einer Gedächtnisperspektive und betrachten die Videosynthese als einen rekurrenten dynamischen Prozess, der koordinierte Kurz- und Langzeitkontexte erfordert. Wir schlagen VideoSSM vor, ein Langvideo-Modell, das AR-Diffusion mit einem hybriden Zustandsraum-Gedächtnis vereint. Das Zustandsraummodell (SSM) dient als sich entwickelndes globales Gedächtnis für die Szenendynamik über die gesamte Sequenz hinweg, während ein Kontextfenster lokales Gedächtnis für Bewegungsimpulse und feine Details bereitstellt. Dieser hybride Entwurf bewahrt globale Konsistenz ohne eingefrorene, repetitive Muster, unterstützt prompt-adaptive Interaktion und skaliert in linearer Zeit mit der Sequenzlänge. Experimente auf Benchmarks für kurze und lange Reichweiten demonstrieren state-of-the-art zeitliche Konsistenz und Bewegungsstabilität unter autoregressiven Videogeneratoren, insbesondere im Minutenbereich. Dies ermöglicht Inhaltsvielfalt und interaktive, promptbasierte Steuerung und etabliert so einen skalierbaren, gedächtnisbewussten Rahmen für die Erzeugung langer Videos.
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.