CausalCine: Echtzeit-autoregressive Generierung für Multi-Shot-Video-Narrative

Zusammenfassung

Autoregressive Videogenerierung zielt auf Echtzeit- und offene Synthese ab. Dennoch ist filmisches Erzählen nicht bloß die endlose Erweiterung einer einzelnen Szene; es erfordert das Fortschreiten durch sich entwickelnde Ereignisse, Perspektivwechsel und diskrete Schnittgrenzen. Bestehende autoregressive Modelle haben oft Schwierigkeiten in diesem Umfeld. Sie sind hauptsächlich für kurzfristige Fortsetzungen trainiert und behandeln lange Sequenzen als ausgedehnte Einzelaufnahmen, was unweigerlich zu Bewegungsstagnation und semantischer Drift während langer Ausgaben führt. Um diese Lücke zu schließen, stellen wir CausalCine vor, ein interaktives autoregressives Framework, das die Generierung von Multi-Shot-Videos in einen Online-Regieprozess verwandelt. CausalCine generiert kausal über Schnittwechsel hinweg, akzeptiert dynamische Prompts im laufenden Betrieb und nutzt Kontext wieder, ohne vorherige Aufnahmen erneut zu generieren. Um dies zu erreichen, trainieren wir zunächst ein kausales Basismodell auf nativen Multi-Shot-Sequenzen, um komplexe Szenenübergänge vor der Beschleunigung zu erlernen. Anschließend schlagen wir das Content-Aware Memory Routing (CAMR) vor, das historische KV-Einträge dynamisch auf der Grundlage von aufmerksamkeitsbasierten Relevanzwerten und nicht auf zeitlicher Nähe abruft, wodurch die Kohärenz zwischen den Aufnahmen unter begrenztem aktivem Speicher erhalten bleibt. Schließlich destillieren wir das kausale Basismodell in einen wenige-Schritte-Generator für interaktive Echtzeit-Generierung. Umfangreiche Experimente zeigen, dass CausalCine autoregressive Basislinien deutlich übertrifft und sich der Leistungsfähigkeit bidirektionaler Modelle annähert, während es die Streaming-Interaktivität kausaler Generierung erschließt. Demo verfügbar unter https://yihao-meng.github.io/CausalCine/

English

Autoregressive video generation aims at real-time, open-ended synthesis. Yet, cinematic storytelling is not merely the endless extension of a single scene; it requires progressing through evolving events, viewpoint shifts, and discrete shot boundaries. Existing autoregressive models often struggle in this setting. Trained primarily for short-horizon continuation, they treat long sequences as extended single shots, inevitably suffering from motion stagnation and semantic drift during long rollouts. To bridge this gap, we introduce CausalCine, an interactive autoregressive framework that transforms multi-shot video generation into an online directing process. CausalCine generates causally across shot changes, accepts dynamic prompts on the fly, and reuses context without regenerating previous shots. To achieve this, we first train a causal base model on native multi-shot sequences to learn complex shot transitions prior to acceleration. We then propose Content-Aware Memory Routing (CAMR), which dynamically retrieves historical KV entries according to attention-based relevance scores rather than temporal proximity, preserving cross-shot coherence under bounded active memory. Finally, we distill the causal base model into a few-step generator for real-time interactive generation. Extensive experiments demonstrate that CausalCine significantly outperforms autoregressive baselines and approaches the capability of bidirectional models while unlocking the streaming interactivity of causal generation. Demo available at https://yihao-meng.github.io/CausalCine/

CausalCine: Echtzeit-autoregressive Generierung für Multi-Shot-Video-Narrative

CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives

Zusammenfassung

Support