Geração Automatizada de Filmes via Planejamento CoT Multiagente
Automated Movie Generation via Multi-Agent CoT Planning
March 10, 2025
Autores: Weijia Wu, Zeyu Zhu, Mike Zheng Shou
cs.AI
Resumo
Os frameworks existentes para geração de vídeos de longa duração carecem de planejamento automatizado, exigindo entrada manual para enredos, cenas, cinematografia e interações entre personagens, resultando em altos custos e ineficiências. Para enfrentar esses desafios, apresentamos o MovieAgent, uma geração automatizada de filmes por meio de planejamento de Cadeia de Pensamento (CoT) multiagente. O MovieAgent oferece duas vantagens principais: 1) Primeiramente, exploramos e definimos o paradigma de geração automatizada de filmes/vídeos longos. Dado um roteiro e um banco de personagens, nosso MovieAgent pode gerar vídeos de longa duração com múltiplas cenas e tomadas, apresentando uma narrativa coesa, enquanto garante consistência dos personagens, legendas sincronizadas e áudio estável ao longo do filme. 2) O MovieAgent introduz um processo de raciocínio hierárquico baseado em CoT para estruturar automaticamente cenas, configurações de câmera e cinematografia, reduzindo significativamente o esforço humano. Ao empregar múltiplos agentes de LLM para simular os papéis de diretor, roteirista, artista de storyboard e gerente de locação, o MovieAgent otimiza o pipeline de produção. Experimentos demonstram que o MovieAgent alcança novos resultados state-of-the-art em fidelidade ao roteiro, consistência de personagens e coerência narrativa. Nosso framework hierárquico dá um passo adiante e oferece novas perspectivas para a geração totalmente automatizada de filmes. O código e o site do projeto estão disponíveis em: https://github.com/showlab/MovieAgent e https://weijiawu.github.io/MovieAgent.
English
Existing long-form video generation frameworks lack automated planning,
requiring manual input for storylines, scenes, cinematography, and character
interactions, resulting in high costs and inefficiencies. To address these
challenges, we present MovieAgent, an automated movie generation via
multi-agent Chain of Thought (CoT) planning. MovieAgent offers two key
advantages: 1) We firstly explore and define the paradigm of automated
movie/long-video generation. Given a script and character bank, our MovieAgent
can generates multi-scene, multi-shot long-form videos with a coherent
narrative, while ensuring character consistency, synchronized subtitles, and
stable audio throughout the film. 2) MovieAgent introduces a hierarchical
CoT-based reasoning process to automatically structure scenes, camera settings,
and cinematography, significantly reducing human effort. By employing multiple
LLM agents to simulate the roles of a director, screenwriter, storyboard
artist, and location manager, MovieAgent streamlines the production pipeline.
Experiments demonstrate that MovieAgent achieves new state-of-the-art results
in script faithfulness, character consistency, and narrative coherence. Our
hierarchical framework takes a step forward and provides new insights into
fully automated movie generation. The code and project website are available
at: https://github.com/showlab/MovieAgent and
https://weijiawu.github.io/MovieAgent.Summary
AI-Generated Summary