ChatPaper.aiChatPaper

VideoDrafter: Geração de Vídeo Multi-Cena Consistente em Conteúdo com LLM

VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM

January 2, 2024
Autores: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI

Resumo

As recentes inovações e avanços nos modelos de difusão expandiram significativamente as possibilidades de geração de vídeos de alta qualidade para os prompts fornecidos. A maioria dos trabalhos existentes aborda o cenário de cena única, onde apenas um evento de vídeo ocorre em um único fundo. No entanto, estender a geração para vídeos de múltiplas cenas não é trivial e exige um gerenciamento eficiente da lógica entre as cenas, preservando a aparência visual consistente do conteúdo principal ao longo das cenas do vídeo. Neste artigo, propomos uma nova estrutura, denominada VideoDrafter, para a geração de vídeos de múltiplas cenas com consistência de conteúdo. Tecnicamente, o VideoDrafter aproveita os Modelos de Linguagem de Grande Escala (LLM) para converter o prompt de entrada em um roteiro abrangente de múltiplas cenas, beneficiando-se do conhecimento lógico aprendido pelo LLM. O roteiro para cada cena inclui um prompt que descreve o evento, as entidades em primeiro plano/fundo, bem como o movimento da câmera. O VideoDrafter identifica as entidades comuns ao longo do roteiro e solicita ao LLM que detalhe cada entidade. A descrição resultante da entidade é então alimentada em um modelo de texto para imagem para gerar uma imagem de referência para cada entidade. Por fim, o VideoDrafter produz um vídeo de múltiplas cenas gerando cada cena do vídeo por meio de um processo de difusão que leva em consideração as imagens de referência, o prompt descritivo do evento e o movimento da câmera. O modelo de difusão incorpora as imagens de referência como condição e alinhamento para fortalecer a consistência de conteúdo dos vídeos de múltiplas cenas. Experimentos extensivos demonstram que o VideoDrafter supera os modelos de geração de vídeo mais avançados (SOTA) em termos de qualidade visual, consistência de conteúdo e preferência do usuário.
English
The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoDrafter, for content-consistent multi-scene video generation. Technically, VideoDrafter leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoDrafter identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoDrafter outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoDrafter outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference.
PDF212December 15, 2024