Generazione Automatica di Film tramite Pianificazione Multi-Agente con Catena di Pensiero
Automated Movie Generation via Multi-Agent CoT Planning
March 10, 2025
Autori: Weijia Wu, Zeyu Zhu, Mike Zheng Shou
cs.AI
Abstract
I framework esistenti per la generazione di video di lunga durata mancano di pianificazione automatizzata, richiedendo input manuali per trame, scene, cinematografia e interazioni tra personaggi, risultando in costi elevati e inefficienze. Per affrontare queste sfide, presentiamo MovieAgent, una generazione automatizzata di film tramite pianificazione multi-agente basata su Catena di Pensiero (CoT). MovieAgent offre due vantaggi chiave: 1) Esploriamo e definiamo per la prima volta il paradigma della generazione automatizzata di film/video di lunga durata. Dato un copione e una banca di personaggi, il nostro MovieAgent può generare video di lunga durata con più scene e inquadrature, mantenendo una narrazione coerente, garantendo la consistenza dei personaggi, i sottotitoli sincronizzati e un audio stabile durante tutto il film. 2) MovieAgent introduce un processo di ragionamento gerarchico basato su CoT per strutturare automaticamente scene, impostazioni della telecamera e cinematografia, riducendo significativamente lo sforzo umano. Impiegando più agenti LLM per simulare i ruoli di un regista, sceneggiatore, artista dello storyboard e location manager, MovieAgent semplifica la pipeline di produzione. Gli esperimenti dimostrano che MovieAgent raggiunge nuovi risultati all'avanguardia in termini di fedeltà al copione, consistenza dei personaggi e coerenza narrativa. Il nostro framework gerarchico rappresenta un passo avanti e fornisce nuove intuizioni per la generazione completamente automatizzata di film. Il codice e il sito web del progetto sono disponibili su: https://github.com/showlab/MovieAgent e https://weijiawu.github.io/MovieAgent.
English
Existing long-form video generation frameworks lack automated planning,
requiring manual input for storylines, scenes, cinematography, and character
interactions, resulting in high costs and inefficiencies. To address these
challenges, we present MovieAgent, an automated movie generation via
multi-agent Chain of Thought (CoT) planning. MovieAgent offers two key
advantages: 1) We firstly explore and define the paradigm of automated
movie/long-video generation. Given a script and character bank, our MovieAgent
can generates multi-scene, multi-shot long-form videos with a coherent
narrative, while ensuring character consistency, synchronized subtitles, and
stable audio throughout the film. 2) MovieAgent introduces a hierarchical
CoT-based reasoning process to automatically structure scenes, camera settings,
and cinematography, significantly reducing human effort. By employing multiple
LLM agents to simulate the roles of a director, screenwriter, storyboard
artist, and location manager, MovieAgent streamlines the production pipeline.
Experiments demonstrate that MovieAgent achieves new state-of-the-art results
in script faithfulness, character consistency, and narrative coherence. Our
hierarchical framework takes a step forward and provides new insights into
fully automated movie generation. The code and project website are available
at: https://github.com/showlab/MovieAgent and
https://weijiawu.github.io/MovieAgent.Summary
AI-Generated Summary