El Guion es Todo lo que Necesitas: Un Marco Agéntico para la Generación de Vídeo Cinematográfico a partir de Diálogos de Largo Horizonte
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
January 25, 2026
Autores: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Resumen
Los recientes avances en generación de vídeo han producido modelos capaces de sintetizar contenido visual asombroso a partir de simples indicaciones de texto. Sin embargo, estos modelos tienen dificultades para generar narrativas largas y coherentes a partir de conceptos de alto nivel como el diálogo, revelando una "brecha semántica" entre una idea creativa y su ejecución cinematográfica. Para salvar esta brecha, presentamos un novedoso marco de trabajo agencial integral para la generación de vídeo cinematográfico a partir de diálogos. El elemento central de nuestro marco es ScripterAgent, un modelo entrenado para traducir diálogos generales en un guion cinematográfico detallado y ejecutable. Para posibilitar esto, construimos ScriptBench, un nuevo benchmark a gran escala con un contexto multimodal enriquecido, anotado mediante una pipeline guiada por expertos. El guion generado luego orienta a DirectorAgent, que orquesta modelos de vídeo de última generación utilizando una estrategia de generación continua entre escenas para garantizar la coherencia a largo plazo. Nuestra evaluación integral, que incluye un CriticAgent potenciado por IA y una nueva métrica de Alineación Visual-Guion (VSA), muestra que nuestro marco mejora significativamente la fidelidad al guion y la fidelidad temporal en todos los modelos de vídeo probados. Además, nuestro análisis revela una compensación crucial en los modelos SOTA actuales entre el espectáculo visual y la adherencia estricta al guion, proporcionando información valiosa para el futuro de la cinematografía automatizada.
English
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.