CausalCine: Generación Autoregresiva en Tiempo Real para Narrativas de Video Multi-Toma

Resumen

La generación de video autorregresivo busca la síntesis en tiempo real y abierta. Sin embargo, la narración cinematográfica no es simplemente la extensión interminable de una sola escena; requiere progresar a través de eventos en evolución, cambios de punto de vista y límites de plano discretos. Los modelos autorregresivos existentes a menudo tienen dificultades en este contexto. Entrenados principalmente para la continuación a corto plazo, tratan las secuencias largas como tomas únicas extendidas, sufriendo inevitablemente de estancamiento de movimiento y deriva semántica durante despliegues prolongados. Para cerrar esta brecha, presentamos CausalCine, un marco interactivo autorregresivo que transforma la generación de video de múltiples tomas en un proceso de dirección en línea. CausalCine genera de manera causal a través de cambios de toma, acepta indicaciones dinámicas sobre la marcha y reutiliza el contexto sin regenerar tomas anteriores. Para lograrlo, primero entrenamos un modelo base causal en secuencias nativas de múltiples tomas para aprender transiciones complejas antes de la aceleración. Luego proponemos el Enrutamiento de Memoria Consciente del Contenido (CAMR), que recupera dinámicamente entradas KV históricas según puntuaciones de relevancia basadas en atención en lugar de proximidad temporal, preservando la coherencia entre tomas bajo una memoria activa limitada. Finalmente, destilamos el modelo base causal en un generador de pocos pasos para la generación interactiva en tiempo real. Experimentos exhaustivos demuestran que CausalCine supera significativamente a las líneas base autorregresivas y se acerca a la capacidad de los modelos bidireccionales, al tiempo que desbloquea la interactividad en streaming de la generación causal. Demostración disponible en https://yihao-meng.github.io/CausalCine/

English

Autoregressive video generation aims at real-time, open-ended synthesis. Yet, cinematic storytelling is not merely the endless extension of a single scene; it requires progressing through evolving events, viewpoint shifts, and discrete shot boundaries. Existing autoregressive models often struggle in this setting. Trained primarily for short-horizon continuation, they treat long sequences as extended single shots, inevitably suffering from motion stagnation and semantic drift during long rollouts. To bridge this gap, we introduce CausalCine, an interactive autoregressive framework that transforms multi-shot video generation into an online directing process. CausalCine generates causally across shot changes, accepts dynamic prompts on the fly, and reuses context without regenerating previous shots. To achieve this, we first train a causal base model on native multi-shot sequences to learn complex shot transitions prior to acceleration. We then propose Content-Aware Memory Routing (CAMR), which dynamically retrieves historical KV entries according to attention-based relevance scores rather than temporal proximity, preserving cross-shot coherence under bounded active memory. Finally, we distill the causal base model into a few-step generator for real-time interactive generation. Extensive experiments demonstrate that CausalCine significantly outperforms autoregressive baselines and approaches the capability of bidirectional models while unlocking the streaming interactivity of causal generation. Demo available at https://yihao-meng.github.io/CausalCine/

CausalCine: Generación Autoregresiva en Tiempo Real para Narrativas de Video Multi-Toma

CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives

Resumen

Support