Сценарий — это всё, что нужно: Агентный фреймворк для генерации кинематографического видео на основе длинных диалогов
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
January 25, 2026
Авторы: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Аннотация
Последние достижения в области генерации видео позволили создать модели, способные синтезировать впечатляющий визуальный контент по простым текстовым запросам. Однако эти модели испытывают трудности с созданием длинных, связных повествований на основе высокоуровневых концепций, таких как диалоги, что выявляет «семантический разрыв» между творческой идеей и её кинематографическим воплощением. Чтобы преодолеть этот разрыв, мы представляем новую сквозную агентскую систему для генерации видео по диалогам. Ключевым элементом нашей системы является ScripterAgent — модель, обученная преобразовывать общий диалог в детализированный, исполняемый кинематографический сценарий. Для этого мы создали ScriptBench, новый масштабный бенчмарк с богатым мультимодальным контекстом, размеченный с помощью экспертно-управляемого пайплайна. Сгенерированный сценарий затем направляет DirectorAgent, который оркестрирует передовые видео-модели, используя стратегию непрерывной генерации между сценами для обеспечения долгосрочной связности. Наше комплексное оценивание, включающее AI-агент CriticAgent и новую метрику визуально-сценарного соответствия (Visual-Script Alignment, VSA), показывает, что наша система значительно повышает верность сценарию и временную целостность для всех протестированных видео-моделей. Кроме того, наш анализ выявляет ключевой компромисс в современных передовых моделях между визуальной зрелищностью и строгим следованием сценарию, что даёт ценные инсайты для будущего автоматизированного кинопроизводства.
English
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.