VideoDrafter: Content-consistente multi-scène videogeneratie met LLM
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM
January 2, 2024
Auteurs: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI
Samenvatting
De recente innovaties en doorbraken in diffusiemodellen hebben de mogelijkheden voor het genereren van hoogwaardige video's aanzienlijk uitgebreid voor de gegeven prompts. De meeste bestaande werken richten zich op het scenario met één scène, waarbij slechts één video-evenement plaatsvindt in een enkele achtergrond. Het uitbreiden naar het genereren van multi-scène video's is echter niet triviaal en vereist een goede beheersing van de logica ertussen, terwijl de consistente visuele verschijning van de belangrijkste inhoud over de video-scènes behouden blijft. In dit artikel stellen we een nieuw framework voor, genaamd VideoDrafter, voor het genereren van inhoudsconsistente multi-scène video's. Technisch gezien maakt VideoDrafter gebruik van Large Language Models (LLM) om de invoerprompt om te zetten in een uitgebreid multi-scène script dat profiteert van de logische kennis die door LLM is geleerd. Het script voor elke scène omvat een prompt die het evenement beschrijft, de entiteiten op de voorgrond/achtergrond, evenals camerabeweging. VideoDrafter identificeert de gemeenschappelijke entiteiten in het script en vraagt LLM om elke entiteit gedetailleerd te beschrijven. De resulterende entiteitsbeschrijving wordt vervolgens ingevoerd in een tekst-naar-beeldmodel om een referentiebeeld voor elke entiteit te genereren. Ten slotte produceert VideoDrafter een multi-scène video door elke scène-video te genereren via een diffusieproces dat rekening houdt met de referentiebeelden, de beschrijvende prompt van het evenement en de camerabeweging. Het diffusiemodel neemt de referentiebeelden op als voorwaarde en uitlijning om de inhoudsconsistentie van multi-scène video's te versterken. Uitgebreide experimenten tonen aan dat VideoDrafter de state-of-the-art video-generatiemodellen overtreft op het gebied van visuele kwaliteit, inhoudsconsistentie en gebruikersvoorkeur.
English
The recent innovations and breakthroughs in diffusion models have
significantly expanded the possibilities of generating high-quality videos for
the given prompts. Most existing works tackle the single-scene scenario with
only one video event occurring in a single background. Extending to generate
multi-scene videos nevertheless is not trivial and necessitates to nicely
manage the logic in between while preserving the consistent visual appearance
of key content across video scenes. In this paper, we propose a novel
framework, namely VideoDrafter, for content-consistent multi-scene video
generation. Technically, VideoDrafter leverages Large Language Models (LLM) to
convert the input prompt into comprehensive multi-scene script that benefits
from the logical knowledge learnt by LLM. The script for each scene includes a
prompt describing the event, the foreground/background entities, as well as
camera movement. VideoDrafter identifies the common entities throughout the
script and asks LLM to detail each entity. The resultant entity description is
then fed into a text-to-image model to generate a reference image for each
entity. Finally, VideoDrafter outputs a multi-scene video by generating each
scene video via a diffusion process that takes the reference images, the
descriptive prompt of the event and camera movement into account. The diffusion
model incorporates the reference images as the condition and alignment to
strengthen the content consistency of multi-scene videos. Extensive experiments
demonstrate that VideoDrafter outperforms the SOTA video generation models in
terms of visual quality, content consistency, and user preference.