CausalCine : Génération autorégressive en temps réel pour narratives vidéo multi-plans

Résumé

La génération vidéo autorégressive vise une synthèse en temps réel et ouverte. Pourtant, la narration cinématographique ne se limite pas à la prolongation infinie d'une seule scène ; elle nécessite une progression à travers des événements évolutifs, des changements de point de vue et des limites de plans discrètes. Les modèles autorégressifs existants peinent souvent dans ce cadre. Entraînés principalement pour une continuation à court horizon, ils traitent les longues séquences comme des plans uniques prolongés, souffrant inévitablement d'une stagnation du mouvement et d'une dérive sémantique lors des déploiements longs. Pour combler cette lacune, nous présentons CausalCine, un cadre autorégressif interactif qui transforme la génération vidéo multi-plans en un processus de réalisation en ligne. CausalCine génère de manière causale à travers les changements de plans, accepte des invites dynamiques à la volée et réutilise le contexte sans régénérer les plans précédents. Pour y parvenir, nous entraînons d'abord un modèle de base causal sur des séquences multi-plans natives afin d'apprendre des transitions complexes entre plans avant l'accélération. Nous proposons ensuite le Routage de Mémoire Contextuelle (CAMR), qui récupère dynamiquement les entrées KV historiques selon des scores de pertinence basés sur l'attention plutôt que sur la proximité temporelle, préservant ainsi la cohérence inter-plans sous une mémoire active bornée. Enfin, nous distillons le modèle de base causal en un générateur à quelques étapes pour une génération interactive en temps réel. Des expériences approfondies montrent que CausalCine surpasse significativement les références autorégressives et se rapproche des capacités des modèles bidirectionnels, tout en débloquant l'interactivité en continu de la génération causale. Démo disponible à l'adresse https://yihao-meng.github.io/CausalCine/.

English

Autoregressive video generation aims at real-time, open-ended synthesis. Yet, cinematic storytelling is not merely the endless extension of a single scene; it requires progressing through evolving events, viewpoint shifts, and discrete shot boundaries. Existing autoregressive models often struggle in this setting. Trained primarily for short-horizon continuation, they treat long sequences as extended single shots, inevitably suffering from motion stagnation and semantic drift during long rollouts. To bridge this gap, we introduce CausalCine, an interactive autoregressive framework that transforms multi-shot video generation into an online directing process. CausalCine generates causally across shot changes, accepts dynamic prompts on the fly, and reuses context without regenerating previous shots. To achieve this, we first train a causal base model on native multi-shot sequences to learn complex shot transitions prior to acceleration. We then propose Content-Aware Memory Routing (CAMR), which dynamically retrieves historical KV entries according to attention-based relevance scores rather than temporal proximity, preserving cross-shot coherence under bounded active memory. Finally, we distill the causal base model into a few-step generator for real-time interactive generation. Extensive experiments demonstrate that CausalCine significantly outperforms autoregressive baselines and approaches the capability of bidirectional models while unlocking the streaming interactivity of causal generation. Demo available at https://yihao-meng.github.io/CausalCine/

CausalCine : Génération autorégressive en temps réel pour narratives vidéo multi-plans

CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives

Résumé

Support