VideoSSM: Авторегрессионное создание длинных видео с гибридной памятью на основе пространства состояний
VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory
December 4, 2025
Авторы: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI
Аннотация
Авторегрессионная (AR) диффузия позволяет осуществлять потоковое интерактивное генерацию длинных видео, создавая кадры причинно-следственным образом, однако сохранение согласованности на минутных масштабах остается сложной задачей из-за накопления ошибок, дрейфа движения и повторения контента. Мы подходим к этой проблеме с точки зрения памяти, рассматривая синтез видео как рекуррентный динамический процесс, требующий скоординированного краткосрочного и долгосрочного контекста. Мы предлагаем VideoSSM, модель длинных видео, которая объединяет AR-диффузию с гибридной памятью на основе пространства состояний. Модель пространства состояний (SSM) служит развивающейся глобальной памятью динамики сцены на протяжении всей последовательности, в то время как контекстное окно обеспечивает локальную память для подсказок движения и мелких деталей. Такая гибридная конструкция сохраняет глобальную согласованность без застывших повторяющихся паттернов, поддерживает адаптивное к запросам взаимодействие и масштабируется за линейное время от длины последовательности. Эксперименты на бенчмарках для коротких и длинных дистанций демонстрируют передовую временную согласованность и стабильность движения среди авторегрессионных генераторов видео, особенно на минутных масштабах, обеспечивая разнообразие контента и интерактивное управление на основе промптов, тем самым устанавливая масштабируемую, учитывающую память структуру для генерации длинных видео.
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.