Lo script è tutto ciò che serve: un framework agentico per la generazione di video cinematografici da dialoghi a lungo termine

Abstract

I recenti progressi nella generazione video hanno prodotto modelli in grado di sintetizzare contenuti visivi straordinari a partire da semplici prompt testuali. Tuttavia, questi modelli faticano a generare narrazioni lunghe e coerenti da concetti di alto livello come i dialoghi, rivelando un "divario semantico" tra un'idea creativa e la sua esecuzione cinematografica. Per colmare questa lacuna, introduciamo un nuovo framework agente end-to-end per la generazione di video cinematografici a partire da dialoghi. Cuore del nostro framework è ScripterAgent, un modello addestrato a tradurre dialoghi generici in una sceneggiatura cinematografica granulare ed eseguibile. Per abilitare ciò, abbiamo costruito ScriptBench, un nuovo benchmark su larga scala con un ricco contesto multimodale, annotato tramite una pipeline guidata da esperti. La sceneggiatura generata guida poi DirectorAgent, che orchestra modelli video all'avanguardia utilizzando una strategia di generazione continua tra le scene per garantire coerenza su lunghi orizzonti. La nostra valutazione completa, che include un CriticAgent alimentato dall'IA e una nuova metrica di Allineamento Visivo-Sceneggiatura (VSA), dimostra che il nostro framework migliora significativamente la fedeltà alla sceneggiatura e la coerenza temporale in tutti i modelli video testati. Inoltre, la nostra analisi rivela un compromesso cruciale negli attuali modelli SOTA tra spettacolarità visiva e rigorosa aderenza alla sceneggiatura, fornendo spunti preziosi per il futuro della produzione cinematografica automatizzata.

English

Recent advances in video generation have produced models capable of synthesizing stunning visual content from simple text prompts. However, these models struggle to generate long-form, coherent narratives from high-level concepts like dialogue, revealing a ``semantic gap'' between a creative idea and its cinematic execution. To bridge this gap, we introduce a novel, end-to-end agentic framework for dialogue-to-cinematic-video generation. Central to our framework is ScripterAgent, a model trained to translate coarse dialogue into a fine-grained, executable cinematic script. To enable this, we construct ScriptBench, a new large-scale benchmark with rich multimodal context, annotated via an expert-guided pipeline. The generated script then guides DirectorAgent, which orchestrates state-of-the-art video models using a cross-scene continuous generation strategy to ensure long-horizon coherence. Our comprehensive evaluation, featuring an AI-powered CriticAgent and a new Visual-Script Alignment (VSA) metric, shows our framework significantly improves script faithfulness and temporal fidelity across all tested video models. Furthermore, our analysis uncovers a crucial trade-off in current SOTA models between visual spectacle and strict script adherence, providing valuable insights for the future of automated filmmaking.

Lo script è tutto ciò che serve: un framework agentico per la generazione di video cinematografici da dialoghi a lungo termine

The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation

Abstract

Support