ChatPaper.aiChatPaper

VideoSSM: Generación Autónoma de Videos Largos con Memoria Híbrida de Espacio de Estados

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

December 4, 2025
Autores: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI

Resumen

La difusión autoregresiva (AR) permite la generación interactiva de vídeos largos en streaming mediante la producción causal de fotogramas; sin embargo, mantener la coherencia en escalas de minutos sigue siendo un desafío debido a los errores acumulados, la deriva del movimiento y la repetición de contenido. Abordamos este problema desde una perspectiva de memoria, tratando la síntesis de vídeo como un proceso dinámico recurrente que requiere contexto coordinado a corto y largo plazo. Proponemos VideoSSM, un Modelo de Vídeo Largo que unifica la difusión AR con una memoria híbrida de espacio de estados. El modelo de espacio de estados (SSM) actúa como una memoria global en evolución de la dinámica de la escena a lo largo de toda la secuencia, mientras que una ventana de contexto proporciona memoria local para indicaciones de movimiento y detalles finos. Este diseño híbrido preserva la coherencia global sin patrones congelados o repetitivos, admite interacción adaptable a prompts y escala en tiempo lineal con la longitud de la secuencia. Los experimentos en benchmarks de corto y largo alcance demuestran una coherencia temporal y estabilidad de movimiento de vanguardia entre los generadores de vídeo autoregresivos, especialmente en horizontes de escala de minutos, permitiendo diversidad de contenido y control interactivo basado en prompts, estableciendo así un marco escalable y consciente de la memoria para la generación de vídeos largos.
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.
PDF32December 13, 2025