ChatPaper.aiChatPaper

Сопродюсер: Агентное генеративное видеоповествование

Co-Director: Agentic Generative Video Storytelling

April 27, 2026
Авторы: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI

Аннотация

Хотя диффузионные модели генерируют видеоклипы высокой четкости, их преобразование в связные механизмы повествования остается сложной задачей. Современные агентные пайплайны автоматизируют этот процесс с помощью цепочек модулей, но страдают от семантического дрейфа и каскадных сбоев из-за независимого ручного промптинга. Мы представляем Co-Director — иерархическую мульти-агентную структуру, формализующую видеоповествование как задачу глобальной оптимизации. Для обеспечения семантической связности мы вводим иерархическую параметризацию: мульти-рукий бандит глобально идентифицирует перспективные творческие направления, а локальный мультимодальный цикл саморефлексии смягчает дрейф идентичности и гарантирует согласованность на уровне последовательностей. Это уравновешивает исследование новых нарративных стратегий с использованием эффективных творческих конфигураций. Для оценки мы представляем GenAD-Bench — набор данных из 400 сценариев вымышленных продуктов для персонализированной рекламы. Эксперименты показывают, что Co-Director значительно превосходит современные базовые методы, предлагая принципиальный подход, который легко обобщается на более широкие кинематографические нарративы. Страница проекта: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/
PDF110April 30, 2026