O Roteiro é Tudo que Você Precisa: Uma Estrutura Agêntica para Geração de Vídeo Cinematográfico de Diálogo de Longo Horizonte
The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation
January 25, 2026
Autores: Chenyu Mu, Xin He, Qu Yang, Wanshun Chen, Jiadi Yao, Huang Liu, Zihao Yi, Bo Zhao, Xingyu Chen, Ruotian Ma, Fanghua Ye, Erkun Yang, Cheng Deng, Zhaopeng Tu, Xiaolong Li, Linus
cs.AI
Resumo
Os recentes avanços na geração de vídeo produziram modelos capazes de sintetizar conteúdo visual impressionante a partir de simples instruções textuais. No entanto, esses modelos lutam para gerar narrativas longas e coerentes a partir de conceitos de alto nível, como diálogos, revelando uma "lacuna semântica" entre uma ideia criativa e sua execução cinematográfica. Para preencher essa lacuna, introduzimos uma nova estrutura agentiva de ponta a ponta para geração de vídeo cinematográfico a partir de diálogo. Central para nossa estrutura é o ScripterAgent, um modelo treinado para traduzir diálogos gerais em um roteiro cinematográfico detalhado e executável. Para viabilizar isso, construímos o ScriptBench, um novo benchmark de larga escala com contexto multimodal rico, anotado por meio de um pipeline guiado por especialistas. O roteiro gerado então orienta o DirectorAgent, que orquestra modelos de vídeo state-of-the-art usando uma estratégia de geração contínua entre cenas para garantir a coerência de longo prazo. Nossa avaliação abrangente, apresentando um CriticAgent alimentado por IA e uma nova métrica de Alinhamento Visual-Roteiro (VSA), mostra que nossa estrutura melhora significativamente a fidelidade ao roteiro e a fidelidade temporal em todos os modelos de vídeo testados. Além disso, nossa análise revela uma troca crucial nos modelos SOTA atuais entre o espetáculo visual e a adesão estrita ao roteiro, fornecendo insights valiosos para o futuro da cinematografia automatizada.
English
Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.