Het Script is Alles Wat Je Nodig Hebt: Een Agent-Gestuurd Framework voor de Generatie van Cinematische Video's uit Lange-Dialoogscenario's
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
January 25, 2026
Auteurs: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Samenvatting
Recente vooruitgang in videogeneratie heeft modellen opgeleverd die in staat zijn verbluffende visuele content te synthetiseren vanuit eenvoudige tekstprompts. Deze modellen hebben echter moeite met het genereren van lange, coherente verhalen vanuit hoogoverconcepten zoals dialoog, wat een "semantische kloof" onthult tussen een creatief idee en de cinematografische uitvoering ervan. Om deze kloof te overbruggen, introduceren we een nieuw, end-to-end agent-gebaseerd raamwerk voor dialoog-naar-cinematische-videogeneratie. Centraal in ons raamwerk staat ScripterAgent, een model dat is getraind om grove dialoog te vertalen naar een gedetailleerd, uitvoerbaar filmscript. Om dit mogelijk te maken, construeren we ScriptBench, een nieuwe grootschalige benchmark met rijke multimodale context, geannoteerd via een door experts begeleide pijplijn. Het gegenereerde script leidt vervolgens DirectorAgent, die state-of-the-art videomodellen aanstuurt met behulp van een cross-scene continue generatiestrategie om coherentie op lange termijn te waarborgen. Onze uitgebreide evaluatie, met een door AI aangedreven CriticAgent en een nieuwe Visual-Script Alignment (VSA)-metriek, toont aan dat ons raamwerk de trouw aan het script en de temporele nauwkeurigheid aanzienlijk verbetert bij alle geteste videomodellen. Bovendien onthult onze analyse een cruciaal spanningsveld in huidige state-of-the-art modellen tussen visueel spektakel en strikte navolging van het script, wat waardevolle inzichten biedt voor de toekomst van geautomatiseerde filmproductie.
English
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.