VideoSSM: Geração Autoregressiva de Vídeos Longos com Memória Híbrida de Espaço de Estados

Resumo

A difusão autorregressiva (AR) permite a geração *streaming* e interativa de vídeos longos ao produzir quadros de forma causal, mas manter a coerência em horizontes de escala de minutos continua desafiador devido a erros acumulados, deriva de movimento e repetição de conteúdo. Abordamos este problema a partir de uma perspectiva de memória, tratando a síntese de vídeo como um processo dinâmico recorrente que requer contexto coordenado de curto e longo prazo. Propomos o VideoSSM, um Modelo de Vídeo Longo que unifica a difusão AR com uma memória híbrida de espaço de estados. O modelo de espaço de estados (SSM) atua como uma memória global em evolução da dinâmica da cena em toda a sequência, enquanto uma janela de contexto fornece memória local para pistas de movimento e detalhes finos. Este projeto híbrido preserva a consistência global sem padrões congelados e repetitivos, suporta interação adaptativa a *prompts* e escala em tempo linear com o comprimento da sequência. Experimentos em benchmarks de curto e longo alcance demonstram consistência temporal e estabilidade de movimento de última geração entre geradores de vídeo autorregressivos, especialmente em horizontes de escala de minutos, permitindo diversidade de conteúdo e controle interativo baseado em *prompts*, estabelecendo assim uma estrutura escalável e consciente da memória para geração de vídeos longos.

English

Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.

VideoSSM: Geração Autoregressiva de Vídeos Longos com Memória Híbrida de Espaço de Estados

VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory

Resumo

Support