脚本こそがすべて:長尺対話から映像生成のためのエージェント的フレームワーク
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
January 25, 2026
著者: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
要旨
近年の映像生成技術は、単純なテキストプロンプトから驚くべき視覚コンテンツを合成できるモデルを生み出してきました。しかし、これらのモデルは対話のような高レベルな概念から長編で一貫性のある物語を生成する際に困難を抱えており、創造的なアイデアとその映像的実現の間に「意味的ギャップ」が存在します。このギャップを埋めるため、我々は対話から映像作品を生成する新しいエンドツーエンドのエージェントフレームワークを提案します。このフレームワークの中核をなすのがScripterAgentで、大まかな対話を詳細で実行可能な映像脚本に変換するように訓練されたモデルです。これを実現するため、専門家監修のパイプラインで注釈付けされた豊富なマルチモーダルコンテキストを含む新たな大規模ベンチマークScriptBenchを構築しました。生成された脚本はDirectorAgentを導き、クロスシーン連続生成戦略を用いて最先端の映像モデルを調整し、長期的な一貫性を確保します。AI駆動のCriticAgentと新規のVisual-Script Alignment(VSA)指標を用いた包括的評価により、本フレームワークが全てのテスト対象映像モデルにおいて脚本の忠実度と時間的整合性を大幅に改善することが示されました。さらに、我々の分析により、現在の最先端モデルには視覚的スペクタクルと厳密な脚本遵守の間の重要なトレードオフが存在することが明らかになり、自動映画制作の将来に向けた貴重な知見を提供します。
English
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.