共同ディレクター:エージェンシック生成映像ストーリーテリング
Co-Director: Agentic Generative Video Storytelling
April 27, 2026
著者: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI
要旨
拡散モデルは高精細な動画クリップを生成するが、それらを一貫性のあるストーリーテリングエンジンへと変換することは依然として課題である。現行のエージェント型パイプラインは連鎖モジュールによりこの過程を自動化するが、独立した手作りのプロンプト起因するセマンティックドリフトと連鎖故障に悩まされている。本論文では、動画ストーリーテリングを大域最適化問題として形式化する階層型マルチエージェントフレームワーク「Co-Director」を提案する。意味的一貫性を確保するため、階層的パラメータ化を導入する:マルチアームドバンディットが大域的に有望な創作方向を特定し、局所的なマルチモーダル自己修正ループがアイデンティティドリフトを軽減しシーケンスレベルの一貫性を保証する。これにより、新規な物語戦略の探索と効果的な創作構成の利用のバランスを取る。評価のために、パーソナライズ広告向け架空製品400シナリオからなるデータセットGenAD-Benchを導入する。実験により、Co-Directorが最先端ベースラインを大幅に上回り、より広範な映画的叙事へシームレスに一般化する原理に基づいたアプローチを提供することを実証する。プロジェクトページ: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/