ChatPaper.aiChatPaper

VideoDirectorGPT: Consistente Multiscène Videogeneratie via LLM-Gestuurde Planning

VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning

September 26, 2023
Auteurs: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI

Samenvatting

Hoewel recente tekst-naar-video (T2V) generatiemethoden aanzienlijke vooruitgang hebben geboekt, richten de meeste van deze werken zich op het produceren van korte videoclips van een enkele gebeurtenis met een enkele achtergrond (d.w.z. enkel-scène video's). Tegelijkertijd hebben recente grote taalmodellen (LLMs) hun vermogen getoond in het genereren van lay-outs en programma's om downstream visuele modules, zoals beeldgeneratiemodellen, aan te sturen. Dit roept een belangrijke vraag op: kunnen we de kennis die in deze LLMs is ingebed, benutten voor temporeel consistente lange videogeneratie? In dit artikel stellen we VideoDirectorGPT voor, een nieuw raamwerk voor consistente multi-scène videogeneratie dat de kennis van LLMs gebruikt voor videocontentplanning en gegronde videogeneratie. Specifiek, gegeven een enkele tekstprompt, vragen we eerst ons video planner LLM (GPT-4) om deze uit te breiden naar een 'videoplan', wat het genereren van scènebeschrijvingen, de entiteiten met hun respectievelijke lay-outs, de achtergrond voor elke scène, en consistentiegroeperingen van de entiteiten en achtergronden omvat. Vervolgens, geleid door deze uitvoer van de videoplanner, heeft onze videogenerator, Layout2Vid, expliciete controle over ruimtelijke lay-outs en kan het temporele consistentie van entiteiten/achtergronden over scènes heen behouden, terwijl het alleen getraind is met beeldniveau annotaties. Onze experimenten tonen aan dat het VideoDirectorGPT-raamwerk de lay-out- en bewegingscontrole aanzienlijk verbetert in zowel enkel- als multi-scène videogeneratie en multi-scène video's kan genereren met visuele consistentie over scènes heen, terwijl het competitieve prestaties behaalt met state-of-the-art (SOTA) in open-domein enkel-scène T2V-generatie. We tonen ook aan dat ons raamwerk dynamisch de sterkte van lay-outbegeleiding kan controleren en ook video's kan genereren met door de gebruiker geleverde afbeeldingen. We hopen dat ons raamwerk toekomstig werk kan inspireren op het beter integreren van de planningscapaciteit van LLMs in consistente lange videogeneratie.
English
Although recent text-to-video (T2V) generation methods have seen significant advancements, most of these works focus on producing short video clips of a single event with a single background (i.e., single-scene videos). Meanwhile, recent large language models (LLMs) have demonstrated their capability in generating layouts and programs to control downstream visual modules such as image generation models. This raises an important question: can we leverage the knowledge embedded in these LLMs for temporally consistent long video generation? In this paper, we propose VideoDirectorGPT, a novel framework for consistent multi-scene video generation that uses the knowledge of LLMs for video content planning and grounded video generation. Specifically, given a single text prompt, we first ask our video planner LLM (GPT-4) to expand it into a 'video plan', which involves generating the scene descriptions, the entities with their respective layouts, the background for each scene, and consistency groupings of the entities and backgrounds. Next, guided by this output from the video planner, our video generator, Layout2Vid, has explicit control over spatial layouts and can maintain temporal consistency of entities/backgrounds across scenes, while only trained with image-level annotations. Our experiments demonstrate that VideoDirectorGPT framework substantially improves layout and movement control in both single- and multi-scene video generation and can generate multi-scene videos with visual consistency across scenes, while achieving competitive performance with SOTAs in open-domain single-scene T2V generation. We also demonstrate that our framework can dynamically control the strength for layout guidance and can also generate videos with user-provided images. We hope our framework can inspire future work on better integrating the planning ability of LLMs into consistent long video generation.
PDF345February 8, 2026