ChatPaper.aiChatPaper

Mede-directeur: Agentisch Generatief Videoverhalen Vertellen

Co-Director: Agentic Generative Video Storytelling

April 27, 2026
Auteurs: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI

Samenvatting

Hoewel diffusiemodellen hoogwaardige videoclips genereren, blijft het een uitdaging om ze te transformeren tot coherente verhaalengines. Huidige agent-gebaseerde pijplijnen automatiseren dit via geketende modules, maar lijden onder semantische drift en cascade-fouten door onafhankelijke, handmatig gemaakte prompts. Wij presenteren Co-Director, een hiërarchisch multi-agent raamwerk dat videoverhaalvorming formaliseert als een globaal optimalisatieprobleem. Voor semantische samenhang introduceren we hiërarchische parameterisatie: een multi-armed bandit identificeert globaal veelbelovende creatieve richtingen, terwijl een lokale multimodale zelfverfijningslus identiteitsdrift beperkt en consistentie op sequentieniveau waarborgt. Dit balanceert de exploratie van nieuwe narratieve strategieën met de exploitatie van effectieve creatieve configuraties. Voor evaluatie introduceren we GenAD-Bench, een dataset met 400 scenario's van fictieve producten voor gepersonaliseerde advertenties. Experimenten tonen aan dat Co-Director state-of-the-art baseline-methoden significant overtreft, en biedt een principiële aanpak die naadloos generaliseert naar bredere cinematische narratieven. Projectpagina: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/
PDF110April 30, 2026