VideoDrafter: Generazione di Video Multi-Scena con Consistenza di Contenuto Utilizzando LLM
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM
January 2, 2024
Autori: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI
Abstract
Le recenti innovazioni e scoperte nei modelli di diffusione hanno significativamente ampliato le possibilità di generare video di alta qualità a partire da prompt specifici. La maggior parte dei lavori esistenti affronta lo scenario a singola scena, in cui si verifica un solo evento video in un unico sfondo. Estendere la generazione a video multi-scena non è tuttavia banale e richiede di gestire in modo appropriato la logica tra le scene, preservando al contempo l'aspetto visivo coerente dei contenuti chiave attraverso le diverse scene. In questo articolo, proponiamo un nuovo framework, denominato VideoDrafter, per la generazione di video multi-scena con coerenza di contenuto. Tecnicamente, VideoDrafter sfrutta i Large Language Models (LLM) per convertire il prompt di input in uno script multi-scena completo, che beneficia della conoscenza logica appresa dai LLM. Lo script per ogni scena include un prompt che descrive l'evento, le entità in primo piano/sfondo, nonché il movimento della telecamera. VideoDrafter identifica le entità comuni nell'intero script e richiede al LLM di dettagliare ciascuna entità. La descrizione risultante dell'entità viene quindi inserita in un modello text-to-image per generare un'immagine di riferimento per ciascuna entità. Infine, VideoDrafter produce un video multi-scena generando ogni scena video attraverso un processo di diffusione che tiene conto delle immagini di riferimento, del prompt descrittivo dell'evento e del movimento della telecamera. Il modello di diffusione incorpora le immagini di riferimento come condizione e allineamento per rafforzare la coerenza di contenuto dei video multi-scena. Esperimenti estensivi dimostrano che VideoDrafter supera i modelli SOTA di generazione video in termini di qualità visiva, coerenza di contenuto e preferenza degli utenti.
English
The recent innovations and breakthroughs in diffusion models have
significantly expanded the possibilities of generating high-quality videos for
the given prompts. Most existing works tackle the single-scene scenario with
only one video event occurring in a single background. Extending to generate
multi-scene videos nevertheless is not trivial and necessitates to nicely
manage the logic in between while preserving the consistent visual appearance
of key content across video scenes. In this paper, we propose a novel
framework, namely VideoDrafter, for content-consistent multi-scene video
generation. Technically, VideoDrafter leverages Large Language Models (LLM) to
convert the input prompt into comprehensive multi-scene script that benefits
from the logical knowledge learnt by LLM. The script for each scene includes a
prompt describing the event, the foreground/background entities, as well as
camera movement. VideoDrafter identifies the common entities throughout the
script and asks LLM to detail each entity. The resultant entity description is
then fed into a text-to-image model to generate a reference image for each
entity. Finally, VideoDrafter outputs a multi-scene video by generating each
scene video via a diffusion process that takes the reference images, the
descriptive prompt of the event and camera movement into account. The diffusion
model incorporates the reference images as the condition and alignment to
strengthen the content consistency of multi-scene videos. Extensive experiments
demonstrate that VideoDrafter outperforms the SOTA video generation models in
terms of visual quality, content consistency, and user preference.