ChatPaper.aiChatPaper

VideoDrafter: Content-consistente multi-scène videogeneratie met LLM

VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM

January 2, 2024
Auteurs: Fuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei
cs.AI

Samenvatting

De recente innovaties en doorbraken in diffusiemodellen hebben de mogelijkheden voor het genereren van hoogwaardige video's aanzienlijk uitgebreid voor de gegeven prompts. De meeste bestaande werken richten zich op het scenario met één scène, waarbij slechts één video-evenement plaatsvindt in een enkele achtergrond. Het uitbreiden naar het genereren van multi-scène video's is echter niet triviaal en vereist een goede beheersing van de logica ertussen, terwijl de consistente visuele verschijning van de belangrijkste inhoud over de video-scènes behouden blijft. In dit artikel stellen we een nieuw framework voor, genaamd VideoDrafter, voor het genereren van inhoudsconsistente multi-scène video's. Technisch gezien maakt VideoDrafter gebruik van Large Language Models (LLM) om de invoerprompt om te zetten in een uitgebreid multi-scène script dat profiteert van de logische kennis die door LLM is geleerd. Het script voor elke scène omvat een prompt die het evenement beschrijft, de entiteiten op de voorgrond/achtergrond, evenals camerabeweging. VideoDrafter identificeert de gemeenschappelijke entiteiten in het script en vraagt LLM om elke entiteit gedetailleerd te beschrijven. De resulterende entiteitsbeschrijving wordt vervolgens ingevoerd in een tekst-naar-beeldmodel om een referentiebeeld voor elke entiteit te genereren. Ten slotte produceert VideoDrafter een multi-scène video door elke scène-video te genereren via een diffusieproces dat rekening houdt met de referentiebeelden, de beschrijvende prompt van het evenement en de camerabeweging. Het diffusiemodel neemt de referentiebeelden op als voorwaarde en uitlijning om de inhoudsconsistentie van multi-scène video's te versterken. Uitgebreide experimenten tonen aan dat VideoDrafter de state-of-the-art video-generatiemodellen overtreft op het gebied van visuele kwaliteit, inhoudsconsistentie en gebruikersvoorkeur.
English
The recent innovations and breakthroughs in diffusion models have significantly expanded the possibilities of generating high-quality videos for the given prompts. Most existing works tackle the single-scene scenario with only one video event occurring in a single background. Extending to generate multi-scene videos nevertheless is not trivial and necessitates to nicely manage the logic in between while preserving the consistent visual appearance of key content across video scenes. In this paper, we propose a novel framework, namely VideoDrafter, for content-consistent multi-scene video generation. Technically, VideoDrafter leverages Large Language Models (LLM) to convert the input prompt into comprehensive multi-scene script that benefits from the logical knowledge learnt by LLM. The script for each scene includes a prompt describing the event, the foreground/background entities, as well as camera movement. VideoDrafter identifies the common entities throughout the script and asks LLM to detail each entity. The resultant entity description is then fed into a text-to-image model to generate a reference image for each entity. Finally, VideoDrafter outputs a multi-scene video by generating each scene video via a diffusion process that takes the reference images, the descriptive prompt of the event and camera movement into account. The diffusion model incorporates the reference images as the condition and alignment to strengthen the content consistency of multi-scene videos. Extensive experiments demonstrate that VideoDrafter outperforms the SOTA video generation models in terms of visual quality, content consistency, and user preference.
PDF212December 15, 2024