ChatPaper.aiChatPaper

VideoSSM: Generazione Autoregressiva di Video Lunghi con Memoria Ibrida a Spazio degli Stati

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

December 4, 2025
Autori: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI

Abstract

La diffusione autoregressiva (AR) consente la generazione interattiva e in streaming di video lunghi producendo i fotogrammi in modo causale, ma mantenere la coerenza su orizzonti di durata nell'ordine dei minuti rimane una sfida a causa di errori accumulati, deriva del moto e ripetizione di contenuti. Affrontiamo questo problema da una prospettiva di memoria, trattando la sintesi video come un processo dinamico ricorrente che richiede un contesto coordinato a breve e lungo termine. Proponiamo VideoSSM, un Modello per Video Lunghi che unisce la diffusione AR con una memoria ibrida a spazio degli stati. Il modello a spazio degli stati (SSM) funge da memoria globale in evoluzione per la dinamica della scena lungo l'intera sequenza, mentre una finestra di contesto fornisce una memoria locale per suggerimenti di movimento e dettagli fini. Questo design ibrido preserva la coerenza globale senza pattern congelati e ripetitivi, supporta l'interazione adattiva al prompt e scala in tempo lineare con la lunghezza della sequenza. Esperimenti su benchmark a corto e lungo raggio dimostrano una coerenza temporale e una stabilità del moto allo stato dell'arte tra i generatori video autoregressivi, specialmente su orizzonti di scala minuti, abilitando diversità di contenuti e controllo interattivo basato su prompt, stabilendo così un framework scalabile e consapevole della memoria per la generazione di video lunghi.
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.
PDF32December 13, 2025