Das Skript ist alles, was du brauchst: Ein agentenbasiertes Framework für die langfristige Dialog-zu-kinematische Video-Generierung
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
January 25, 2026
papers.authors: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
papers.abstract
Jüngste Fortschritte in der Videogenerierung haben Modelle hervorgebracht, die in der Lage sind, atemberaubende visuelle Inhalte aus einfachen Textaufforderungen zu synthetisieren. Diese Modelle haben jedoch Schwierigkeiten, langformatige, kohärente Narrative aus hochrangigen Konzepten wie Dialogen zu erzeugen, was eine „semantische Lücke“ zwischen einer kreativen Idee und ihrer filmischen Umsetzung offenbart. Um diese Lücke zu schließen, stellen wir einen neuartigen, end-to-end agentenbasierten Rahmen für die Dialog-zu-Filmvideo-Generierung vor. Zentrale Komponente unseres Frameworks ist der ScripterAgent, ein Modell, das darauf trainiert ist, grobe Dialoge in ein detailliertes, ausführbares Filmskript zu übersetzen. Um dies zu ermöglichen, haben wir ScriptBench, einen neuen großen Benchmark mit reichem multimodalen Kontext, konstruiert, der über eine expertengeleitete Pipeline annotiert wurde. Das generierte Skript führt dann den DirectorAgent, der State-of-the-Art-Videomodelle unter Verwendung einer szenenübergreifenden kontinuierlichen Generierungsstrategie orchestriert, um langfristige Kohärenz sicherzustellen. Unsere umfassende Evaluation, die einen KI-gestützten CriticAgent und eine neue Metrik zur Visuell-Skript-Alignment (VSA) umfasst, zeigt, dass unser Framework die Skripttreue und zeitliche Wiedergabetreue bei allen getesteten Videomodellen signifikant verbessert. Darüber hinaus deckt unsere Analyse einen entscheidenden Zielkonflikt in aktuellen SOTA-Modellen auf: den zwischen visueller Spektakularität und strikter Skripttreue, was wertvolle Einblicke für die Zukunft der automatisierten Filmproduktion liefert.
English
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.