VideoSSM : Génération autoregressive de vidéos longues avec mémoire hybride à espace d'états
VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory
December 4, 2025
papers.authors: Yifei Yu, Xiaoshan Wu, Xinting Hu, Tao Hu, Yangtian Sun, Xiaoyang Lyu, Bo Wang, Lin Ma, Yuewen Ma, Zhongrui Wang, Xiaojuan Qi
cs.AI
papers.abstract
La diffusion autorégressive (AR) permet la génération interactive en flux de vidéos longues en produisant les images de manière causale, mais la préservation de la cohérence sur des horizons à l'échelle de la minute reste difficile en raison des erreurs accumulées, de la dérive du mouvement et des répétitions de contenu. Nous abordons ce problème sous l'angle de la mémoire, en considérant la synthèse vidéo comme un processus dynamique récurrent qui nécessite une coordination entre le contexte à court et à long terme. Nous proposons VideoSSM, un modèle de vidéo longue qui unifie la diffusion AR avec une mémoire hybride à espace d'états. Le modèle à espace d'états (SSM) sert de mémoire globale évolutive pour la dynamique de la scène sur toute la séquence, tandis qu'une fenêtre contextuelle fournit une mémoire locale pour les indices de mouvement et les détails fins. Cette conception hybride préserve la cohérence globale sans motifs figés ou répétitifs, prend en charge une interaction adaptative aux invites, et s'adapte avec un temps linéaire à la longueur de la séquence. Les expériences sur des benchmarks à courte et longue portée démontrent une cohérence temporelle et une stabilité du mouvement à l'état de l'art parmi les générateurs vidéo autorégressifs, particulièrement sur des horizons à l'échelle de la minute, permettant une diversité de contenu et un contrôle interactif basé sur des invites, établissant ainsi un cadre évolutif et conscient de la mémoire pour la génération de vidéos longues.
English
Autoregressive (AR) diffusion enables streaming, interactive long-video generation by producing frames causally, yet maintaining coherence over minute-scale horizons remains challenging due to accumulated errors, motion drift, and content repetition. We approach this problem from a memory perspective, treating video synthesis as a recurrent dynamical process that requires coordinated short- and long-term context. We propose VideoSSM, a Long Video Model that unifies AR diffusion with a hybrid state-space memory. The state-space model (SSM) serves as an evolving global memory of scene dynamics across the entire sequence, while a context window provides local memory for motion cues and fine details. This hybrid design preserves global consistency without frozen, repetitive patterns, supports prompt-adaptive interaction, and scales in linear time with sequence length. Experiments on short- and long-range benchmarks demonstrate state-of-the-art temporal consistency and motion stability among autoregressive video generator especially at minute-scale horizons, enabling content diversity and interactive prompt-based control, thereby establishing a scalable, memory-aware framework for long video generation.