ChatPaper.aiChatPaper

공동 디렉터: 에이전트 기반 생성형 비디오 스토리텔링

Co-Director: Agentic Generative Video Storytelling

April 27, 2026
저자: Yale Song, Yiwen Song, Nick Losier, Nathan Hodson, Ye Jin, Rhyard Zhu, Yan Xu, Daniel Vlasic, Carina Claassen, Jasmine Leon, Khanh G. LeViet, Zack Chomyn, Joe Timmons, Brett Slatkin, Scott Penberthy, Tomas Pfister
cs.AI

초록

확산 모델이 고품질 비디오 클립을 생성하는 반면, 이를 일관된 스토리텔링 엔진으로 전환하는 것은 여전히 과제로 남아 있습니다. 기존 에이전트 파이프라인은 체인 방식의 모듈을 통해 이 과정을 자동화하지만, 독립적으로 설계된 수동 프롬프팅으로 인한 의미론적 편차와 연쇄적 오류가 발생합니다. 본 연구에서는 비디오 스토리텔링을 전역 최적화 문제로 공식화하는 계층적 다중 에이전트 프레임워크인 Co-Director를 제안합니다. 의미론적 일관성을 보장하기 위해 계층적 매개변수화를 도입하였습니다: 다중 팔 밴딧이 전역적으로 유망한 창의적 방향을 식별하는 동시에, 지역적 다중 모드 자기 정제 루프가 identity drift를 완화하고 시퀀스 수준의 일관성을 보장합니다. 이는 새로운 서사 전략의 탐색과 효과적인 창의적 구성의 활용 사이의 균형을 맞춥니다. 평가를 위해 개인화된 광고를 위한 가상 제품 400개 시나리오 데이터셋인 GenAD-Bench를 도입하였습니다. 실험 결과 Co-Director가 최첨단 기준선을 크게 능가하며, 더 넓은 영화적 서사로 원활하게 일반화되는 원칙적인 접근법을 제공함을 입증했습니다. 프로젝트 페이지: https://co-director-agent.github.io/
English
While diffusion models generate high-fidelity video clips, transforming them into coherent storytelling engines remains challenging. Current agentic pipelines automate this via chained modules but suffer from semantic drift and cascading failures due to independent, handcrafted prompting. We present Co-Director, a hierarchical multi-agent framework formalizing video storytelling as a global optimization problem. To ensure semantic coherence, we introduce hierarchical parameterization: a multi-armed bandit globally identifies promising creative directions, while a local multimodal self-refinement loop mitigates identity drift and ensures sequence-level consistency. This balances the exploration of novel narrative strategies with the exploitation of effective creative configurations. For evaluation, we introduce GenAD-Bench, a 400-scenario dataset of fictional products for personalized advertising. Experiments demonstrate that Co-Director significantly outperforms state-of-the-art baselines, offering a principled approach that seamlessly generalizes to broader cinematic narratives. Project Page: https://co-director-agent.github.io/
PDF110April 30, 2026