VideoDirectorGPT: Geração Consistente de Vídeos com Múltiplas Cenas por meio de Planejamento Orientado por LLM
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
September 26, 2023
Autores: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI
Resumo
Embora os métodos recentes de geração de texto para vídeo (T2V) tenham apresentado avanços significativos, a maioria desses trabalhos se concentra na produção de clipes curtos de um único evento com um único fundo (ou seja, vídeos de cena única). Enquanto isso, os modelos de linguagem de grande escala (LLMs) recentes demonstraram sua capacidade de gerar layouts e programas para controlar módulos visuais subsequentes, como modelos de geração de imagens. Isso levanta uma questão importante: podemos aproveitar o conhecimento embutido nesses LLMs para a geração de vídeos longos com consistência temporal? Neste artigo, propomos o VideoDirectorGPT, uma nova estrutura para geração de vídeos multicena consistentes que utiliza o conhecimento dos LLMs para planejamento de conteúdo de vídeo e geração de vídeo fundamentada. Especificamente, dado um único prompt de texto, primeiro solicitamos ao nosso LLM planejador de vídeo (GPT-4) que o expanda em um 'plano de vídeo', que envolve a geração das descrições das cenas, as entidades com seus respectivos layouts, o fundo de cada cena e os agrupamentos de consistência das entidades e fundos. Em seguida, guiado por essa saída do planejador de vídeo, nosso gerador de vídeo, Layout2Vid, tem controle explícito sobre os layouts espaciais e pode manter a consistência temporal das entidades/fundos entre as cenas, enquanto é treinado apenas com anotações em nível de imagem. Nossos experimentos demonstram que a estrutura VideoDirectorGPT melhora substancialmente o controle de layout e movimento na geração de vídeos de cena única e multicena, e pode gerar vídeos multicena com consistência visual entre as cenas, ao mesmo tempo em que alcança desempenho competitivo com os SOTAs na geração de T2V de cena única em domínio aberto. Também demonstramos que nossa estrutura pode controlar dinamicamente a força da orientação de layout e pode gerar vídeos com imagens fornecidas pelo usuário. Esperamos que nossa estrutura possa inspirar trabalhos futuros sobre a melhor integração da capacidade de planejamento dos LLMs na geração de vídeos longos consistentes.
English
Although recent text-to-video (T2V) generation methods have seen significant
advancements, most of these works focus on producing short video clips of a
single event with a single background (i.e., single-scene videos). Meanwhile,
recent large language models (LLMs) have demonstrated their capability in
generating layouts and programs to control downstream visual modules such as
image generation models. This raises an important question: can we leverage the
knowledge embedded in these LLMs for temporally consistent long video
generation? In this paper, we propose VideoDirectorGPT, a novel framework for
consistent multi-scene video generation that uses the knowledge of LLMs for
video content planning and grounded video generation. Specifically, given a
single text prompt, we first ask our video planner LLM (GPT-4) to expand it
into a 'video plan', which involves generating the scene descriptions, the
entities with their respective layouts, the background for each scene, and
consistency groupings of the entities and backgrounds. Next, guided by this
output from the video planner, our video generator, Layout2Vid, has explicit
control over spatial layouts and can maintain temporal consistency of
entities/backgrounds across scenes, while only trained with image-level
annotations. Our experiments demonstrate that VideoDirectorGPT framework
substantially improves layout and movement control in both single- and
multi-scene video generation and can generate multi-scene videos with visual
consistency across scenes, while achieving competitive performance with SOTAs
in open-domain single-scene T2V generation. We also demonstrate that our
framework can dynamically control the strength for layout guidance and can also
generate videos with user-provided images. We hope our framework can inspire
future work on better integrating the planning ability of LLMs into consistent
long video generation.