Le scénario est la seule clé : un cadre agentique pour la génération de vidéos cinématiques à partir de dialogues à long horizon
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
January 25, 2026
papers.authors: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
papers.abstract
Les récentes avancées en génération vidéo ont produit des modèles capables de synthétiser un contenu visuel époustouflant à partir de simples invites textuelles. Cependant, ces modèles peinent à générer des récits longs et cohérents à partir de concepts de haut niveau comme des dialogues, révélant un « fossé sémantique » entre une idée créative et son exécution cinématographique. Pour combler ce fossé, nous introduisons un nouveau cadre agentique de bout en bout pour la génération de vidéos cinématographiques à partir de dialogues. Au cœur de notre cadre se trouve ScripterAgent, un modèle entraîné à traduire un dialogue grossier en un scénario cinématographique détaillé et exécutable. Pour permettre cela, nous construisons ScriptBench, une nouvelle base de référence à grande échelle avec un contexte multimodal riche, annotée via un pipeline guidé par des experts. Le scénario généré guide ensuite DirectorAgent, qui orchestre des modèles vidéo de pointe en utilisant une stratégie de génération continue inter-scènes pour garantir une cohérence à long terme. Notre évaluation complète, mettant en œuvre un CriticAgent alimenté par l'IA et une nouvelle métrique d'Alignement Visuel-Scénario (VSA), montre que notre cadre améliore significativement la fidélité au scénario et la fidélité temporelle sur tous les modèles vidéo testés. De plus, notre analyse révèle un compromis crucial dans les modèles SOTA actuels entre le spectacle visuel et le respect strict du scénario, offrant des perspectives précieuses pour l'avenir de la réalisation cinématographique automatisée.
English
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.