ChatPaper.aiChatPaper

Codiretor: Narrativa de Vídeo Generativa Agente

Co-Director: Agentic Generative Video Storytelling

April 27, 2026
Autores: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI

Resumo

Embora os modelos de difusão gerem clipes de vídeo de alta fidelidade, transformá-los em motores de narrativa coerentes continua sendo um desafio. Os pipelines agenticos atuais automatizam esse processo por meio de módulos encadeados, mas sofrem com deriva semântica e falhas em cascata devido à solicitação independente e manual. Apresentamos o Co-Director, uma estrutura multiagente hierárquica que formaliza a narrativa visual como um problema de otimização global. Para garantir coerência semântica, introduzimos uma parametrização hierárquica: um bandido multiarmado identifica globalmente direções criativas promissoras, enquanto um loop local de autorrefinamento multimodal mitiga a deriva de identidade e garante consistência em nível de sequência. Isso equilibra a exploração de novas estratégias narrativas com a exploração de configurações criativas eficazes. Para avaliação, introduzimos o GenAD-Bench, um conjunto de dados com 400 cenários de produtos fictícios para publicidade personalizada. Experimentos demonstram que o Co-Director supera significativamente os métodos state-of-the-art, oferecendo uma abordagem fundamentada que se generaliza perfeitamente para narrativas cinematográficas mais amplas. Página do Projeto: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/
PDF110April 30, 2026