CausalCine:マルチショット動画ナラティブのためのリアルタイム自己回帰生成
CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives
May 12, 2026
著者: Yihao Meng, Zichen Liu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Yue Yu, Hanlin Wang, Haobo Li, Jiapeng Zhu, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen, Huamin Qu
cs.AI
要旨
自己回帰型ビデオ生成は、リアルタイムかつオープンエンドな合成を目指している。しかし、映画的なストーリーテリングは単一シーンの無限の延長ではなく、進化するイベント、視点の切り替え、個別のショット境界を経て進行する必要がある。既存の自己回帰モデルは、この設定においてしばしば困難に直面する。主に短期的な継続のために学習されているため、長いシーケンスを拡張された単一ショットとして扱い、長時間のロールアウトにおいて動きの停滞や意味的ドリフトを避けられない。このギャップを埋めるために、我々はCausalCineを導入する。これは、マルチショットビデオ生成をオンラインのディレクティングプロセスに変換するインタラクティブな自己回帰フレームワークである。CausalCineはショット変更をまたいで因果的に生成し、動的なプロンプトをその場で受け入れ、過去のショットを再生成せずにコンテキストを再利用する。これを実現するために、まずアクセラレーション前にネイティブなマルチショットシーケンスで因果ベースモデルを学習し、複雑なショット遷移を獲得する。次に、コンテンツ認識メモリルーティング(CAMR)を提案する。これは、時間的近接性ではなく注意ベースの関連性スコアに従って過去のKVエントリを動的に取得し、制限されたアクティブメモリの下でクロスショットの一貫性を維持する。最後に、因果ベースモデルを数ステップ生成器に蒸留し、リアルタイムのインタラクティブ生成を実現する。広範な実験により、CausalCineは自己回帰ベースラインを大幅に上回り、双方向モデルの能力に近づきつつ、因果生成のストリーミングインタラクティブ性を解放することを示す。デモはhttps://yihao-meng.github.io/CausalCine/で利用可能である。
English
Autoregressive video generation aims at real-time, open-ended synthesis. Yet, cinematic storytelling is not merely the endless extension of a single scene; it requires progressing through evolving events, viewpoint shifts, and discrete shot boundaries. Existing autoregressive models often struggle in this setting. Trained primarily for short-horizon continuation, they treat long sequences as extended single shots, inevitably suffering from motion stagnation and semantic drift during long rollouts. To bridge this gap, we introduce CausalCine, an interactive autoregressive framework that transforms multi-shot video generation into an online directing process. CausalCine generates causally across shot changes, accepts dynamic prompts on the fly, and reuses context without regenerating previous shots. To achieve this, we first train a causal base model on native multi-shot sequences to learn complex shot transitions prior to acceleration. We then propose Content-Aware Memory Routing (CAMR), which dynamically retrieves historical KV entries according to attention-based relevance scores rather than temporal proximity, preserving cross-shot coherence under bounded active memory. Finally, we distill the causal base model into a few-step generator for real-time interactive generation. Extensive experiments demonstrate that CausalCine significantly outperforms autoregressive baselines and approaches the capability of bidirectional models while unlocking the streaming interactivity of causal generation. Demo available at https://yihao-meng.github.io/CausalCine/