O Roteiro é Tudo que Você Precisa: Uma Estrutura Agêntica para Geração de Vídeo Cinematográfico de Diálogo de Longo Horizonte

Resumo

Os recentes avanços na geração de vídeo produziram modelos capazes de sintetizar conteúdo visual impressionante a partir de simples instruções textuais. No entanto, esses modelos lutam para gerar narrativas longas e coerentes a partir de conceitos de alto nível, como diálogos, revelando uma "lacuna semântica" entre uma ideia criativa e sua execução cinematográfica. Para preencher essa lacuna, introduzimos uma nova estrutura agentiva de ponta a ponta para geração de vídeo cinematográfico a partir de diálogo. Central para nossa estrutura é o ScripterAgent, um modelo treinado para traduzir diálogos gerais em um roteiro cinematográfico detalhado e executável. Para viabilizar isso, construímos o ScriptBench, um novo benchmark de larga escala com contexto multimodal rico, anotado por meio de um pipeline guiado por especialistas. O roteiro gerado então orienta o DirectorAgent, que orquestra modelos de vídeo state-of-the-art usando uma estratégia de geração contínua entre cenas para garantir a coerência de longo prazo. Nossa avaliação abrangente, apresentando um CriticAgent alimentado por IA e uma nova métrica de Alinhamento Visual-Roteiro (VSA), mostra que nossa estrutura melhora significativamente a fidelidade ao roteiro e a fidelidade temporal em todos os modelos de vídeo testados. Além disso, nossa análise revela uma troca crucial nos modelos SOTA atuais entre o espetáculo visual e a adesão estrita ao roteiro, fornecendo insights valiosos para o futuro da cinematografia automatizada.

English

Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.