ChatPaper.aiChatPaper

Co-Directeur : Narration Vidéo Générative Agentique

Co-Director: Agentic Generative Video Storytelling

April 27, 2026
Auteurs: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI

Résumé

Bien que les modèles de diffusion génèrent des séquences vidéo de haute fidélité, leur transformation en moteurs de narration cohérente reste un défi. Les pipelines agentiques actuels automatisent cette tâche via des modules enchaînés, mais souffrent de dérive sémantique et de défaillances en cascade dues à l'utilisation indépendante d'invites manuelles. Nous présentons Co-Director, un cadre multi-agent hiérarchique qui formalise la narration vidéo comme un problème d'optimisation globale. Pour assurer la cohérence sémantique, nous introduisons une paramétrisation hiérarchique : un bandit manchot multi-bras identifie globalement des directions créatives prometteuses, tandis qu'une boucle locale d'auto-affinage multimodale atténue la dérive identitaire et garantit la cohérence au niveau séquentiel. Cette approche équilibre l'exploration de nouvelles stratégies narratives avec l'exploitation de configurations créatives efficaces. Pour l'évaluation, nous présentons GenAD-Bench, un jeu de données de 400 scénarios de produits fictifs destinés à la publicité personnalisée. Les expériences démontrent que Co-Director surpasse significativement les méthodes de référence, offrant une approche princiée qui se généralise naturellement à des récits cinématographiques plus larges. Page du projet : https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/
PDF110April 30, 2026