Co-Direttore: Storytelling Video Generativo Agente
Co-Director: Agentic Generative Video Storytelling
April 27, 2026
Autori: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI
Abstract
Sebbene i modelli di diffusione generino clip video ad alta fedeltà, trasformarli in motori di narrazione coerenti rimane una sfida. Le pipeline agenti attuali automatizzano questo processo tramite moduli concatenati, ma soffrono di deriva semantica e fallimenti a cascata a causa di prompt indipendenti e artigianali. Presentiamo Co-Director, un framework multi-agente gerarchico che formalizza la narrazione video come un problema di ottimizzazione globale. Per garantire coerenza semantica, introduciamo una parametrizzazione gerarchica: un bandit multi-braccio identifica globalmente direzioni creative promettenti, mentre un ciclo locale di auto-affinamento multimodale mitiga la deriva identitaria e assicura coerenza a livello di sequenza. Questo bilancia l'esplorazione di nuove strategie narrative con lo sfruttamento di configurazioni creative efficaci. Per la valutazione, introduciamo GenAD-Bench, un dataset di 400 scenari di prodotti fittizi per la pubblicità personalizzata. Gli esperimenti dimostrano che Co-Director supera significativamente i baseline state-of-the-art, offrendo un approccio principiato che si generalizza senza soluzione di continuità a narrative cinematografiche più ampie. Pagina del progetto: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/