Co-Director: Agentische Generierung von Videogeschichten
Co-Director: Agentic Generative Video Storytelling
April 27, 2026
Autoren: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI
Zusammenfassung
Während Diffusionsmodelle hochwertige Videoclips generieren, bleibt deren Transformation in kohärente Storytelling-Engines eine Herausforderung. Bestehende agentenbasierte Pipelines automatisieren dies zwar durch verkettete Module, leiden jedoch unter semantischer Drift und kaskadierenden Fehlern aufgrund unabhängiger, handgefertigter Prompting-Verfahren. Wir stellen Co-Director vor, ein hierarchisches Multi-Agenten-Framework, das Video-Storytelling als globales Optimierungsproblem formalisiert. Um semantische Kohärenz zu gewährleisten, führen wir hierarchische Parametrisierung ein: Ein Multi-Armed-Bandit identifiziert global vielversprechende kreative Richtungen, während eine lokale multimodale Selbstoptimierungsschleife Identitätsdrift reduziert und Konsistenz auf Sequenzebene sicherstellt. Dies balanciert die Exploration neuartiger Erzählstrategien mit der Exploitation effektiver kreativer Konfigurationen. Zur Evaluation führen wir GenAD-Bench ein, einen 400-Szenarien-Datensatz fiktiver Produkte für personalisierte Werbung. Experimente zeigen, dass Co-Director state-of-the-art Baseline-Methoden signifikant übertrifft und einen prinzipienbasierten Ansatz bietet, der sich nahtlos auf breitere filmische Narrative verallgemeinern lässt. Projektseite: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/