Codirector: Narrativa de Video Generativo Agéntico
Co-Director: Agentic Generative Video Storytelling
April 27, 2026
Autores: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI
Resumen
Si bien los modelos de difusión generan videoclips de alta fidelidad, transformarlos en motores de narración coherente sigue siendo un desafío. Los flujos de trabajo agentivos actuales automatizan este proceso mediante módulos encadenados, pero adolecen de deriva semántica y fallos en cascada debido a la creación manual e independiente de instrucciones. Presentamos Co-Director, un marco multiagente jerárquico que formaliza la narración audiovisual como un problema de optimización global. Para garantizar la coherencia semántica, introducimos una parametrización jerárquica: un bandido multi-brazo identifica globalmente direcciones creativas prometedoras, mientras que un bucle local de autorrefinamiento multimodal mitiga la deriva de identidad y asegura la coherencia a nivel de secuencia. Esto equilibra la exploración de nuevas estrategias narrativas con la explotación de configuraciones creativas efectivas. Para la evaluación, presentamos GenAD-Bench, un conjunto de datos de 400 escenarios de productos ficticios para publicidad personalizada. Los experimentos demuestran que Co-Director supera significativamente a los métodos de referencia más avanzados, ofreciendo un enfoque fundamentado que se generaliza sin problemas a narrativas cinematográficas más amplias. Página del proyecto: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/