VideoDirectorGPT: Consistente Multiscène Videogeneratie via LLM-Gestuurde Planning
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
September 26, 2023
Auteurs: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI
Samenvatting
Hoewel recente tekst-naar-video (T2V) generatiemethoden aanzienlijke vooruitgang hebben geboekt, richten de meeste van deze werken zich op het produceren van korte videoclips van een enkele gebeurtenis met een enkele achtergrond (d.w.z. enkel-scène video's). Tegelijkertijd hebben recente grote taalmodellen (LLMs) hun vermogen getoond in het genereren van lay-outs en programma's om downstream visuele modules, zoals beeldgeneratiemodellen, aan te sturen. Dit roept een belangrijke vraag op: kunnen we de kennis die in deze LLMs is ingebed, benutten voor temporeel consistente lange videogeneratie? In dit artikel stellen we VideoDirectorGPT voor, een nieuw raamwerk voor consistente multi-scène videogeneratie dat de kennis van LLMs gebruikt voor videocontentplanning en gegronde videogeneratie. Specifiek, gegeven een enkele tekstprompt, vragen we eerst ons video planner LLM (GPT-4) om deze uit te breiden naar een 'videoplan', wat het genereren van scènebeschrijvingen, de entiteiten met hun respectievelijke lay-outs, de achtergrond voor elke scène, en consistentiegroeperingen van de entiteiten en achtergronden omvat. Vervolgens, geleid door deze uitvoer van de videoplanner, heeft onze videogenerator, Layout2Vid, expliciete controle over ruimtelijke lay-outs en kan het temporele consistentie van entiteiten/achtergronden over scènes heen behouden, terwijl het alleen getraind is met beeldniveau annotaties. Onze experimenten tonen aan dat het VideoDirectorGPT-raamwerk de lay-out- en bewegingscontrole aanzienlijk verbetert in zowel enkel- als multi-scène videogeneratie en multi-scène video's kan genereren met visuele consistentie over scènes heen, terwijl het competitieve prestaties behaalt met state-of-the-art (SOTA) in open-domein enkel-scène T2V-generatie. We tonen ook aan dat ons raamwerk dynamisch de sterkte van lay-outbegeleiding kan controleren en ook video's kan genereren met door de gebruiker geleverde afbeeldingen. We hopen dat ons raamwerk toekomstig werk kan inspireren op het beter integreren van de planningscapaciteit van LLMs in consistente lange videogeneratie.
English
Although recent text-to-video (T2V) generation methods have seen significant
advancements, most of these works focus on producing short video clips of a
single event with a single background (i.e., single-scene videos). Meanwhile,
recent large language models (LLMs) have demonstrated their capability in
generating layouts and programs to control downstream visual modules such as
image generation models. This raises an important question: can we leverage the
knowledge embedded in these LLMs for temporally consistent long video
generation? In this paper, we propose VideoDirectorGPT, a novel framework for
consistent multi-scene video generation that uses the knowledge of LLMs for
video content planning and grounded video generation. Specifically, given a
single text prompt, we first ask our video planner LLM (GPT-4) to expand it
into a 'video plan', which involves generating the scene descriptions, the
entities with their respective layouts, the background for each scene, and
consistency groupings of the entities and backgrounds. Next, guided by this
output from the video planner, our video generator, Layout2Vid, has explicit
control over spatial layouts and can maintain temporal consistency of
entities/backgrounds across scenes, while only trained with image-level
annotations. Our experiments demonstrate that VideoDirectorGPT framework
substantially improves layout and movement control in both single- and
multi-scene video generation and can generate multi-scene videos with visual
consistency across scenes, while achieving competitive performance with SOTAs
in open-domain single-scene T2V generation. We also demonstrate that our
framework can dynamically control the strength for layout guidance and can also
generate videos with user-provided images. We hope our framework can inspire
future work on better integrating the planning ability of LLMs into consistent
long video generation.