VideoDirectorGPT : Génération vidéo multi-scènes cohérente via une planification guidée par LLM
VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning
September 26, 2023
Auteurs: Han Lin, Abhay Zala, Jaemin Cho, Mohit Bansal
cs.AI
Résumé
Bien que les méthodes récentes de génération de texte-à-vidéo (T2V) aient connu des avancées significatives, la plupart de ces travaux se concentrent sur la production de courts clips vidéo d'un seul événement avec un seul arrière-plan (c'est-à-dire des vidéos à scène unique). Parallèlement, les grands modèles de langage (LLMs) récents ont démontré leur capacité à générer des mises en page et des programmes pour contrôler des modules visuels en aval tels que les modèles de génération d'images. Cela soulève une question importante : pouvons-nous exploiter les connaissances intégrées dans ces LLMs pour la génération de vidéos longues et temporellement cohérentes ? Dans cet article, nous proposons VideoDirectorGPT, un nouveau cadre pour la génération cohérente de vidéos multi-scènes qui utilise les connaissances des LLMs pour la planification du contenu vidéo et la génération de vidéos ancrées. Plus précisément, étant donné une seule invite textuelle, nous demandons d'abord à notre LLM planificateur vidéo (GPT-4) de l'étendre en un 'plan vidéo', qui implique la génération des descriptions de scènes, des entités avec leurs mises en page respectives, de l'arrière-plan pour chaque scène, et des regroupements de cohérence des entités et des arrière-plans. Ensuite, guidé par cette sortie du planificateur vidéo, notre générateur vidéo, Layout2Vid, a un contrôle explicite sur les mises en page spatiales et peut maintenir la cohérence temporelle des entités/arrière-plans à travers les scènes, tout en étant uniquement entraîné avec des annotations au niveau de l'image. Nos expériences démontrent que le cadre VideoDirectorGPT améliore considérablement le contrôle des mises en page et des mouvements dans la génération de vidéos à scène unique et multi-scènes, et peut générer des vidéos multi-scènes avec une cohérence visuelle entre les scènes, tout en atteignant des performances compétitives avec les SOTAs dans la génération T2V à scène unique en domaine ouvert. Nous démontrons également que notre cadre peut contrôler dynamiquement la force de guidage des mises en page et peut également générer des vidéos avec des images fournies par l'utilisateur. Nous espérons que notre cadre pourra inspirer des travaux futurs sur une meilleure intégration de la capacité de planification des LLMs dans la génération de vidéos longues cohérentes.
English
Although recent text-to-video (T2V) generation methods have seen significant
advancements, most of these works focus on producing short video clips of a
single event with a single background (i.e., single-scene videos). Meanwhile,
recent large language models (LLMs) have demonstrated their capability in
generating layouts and programs to control downstream visual modules such as
image generation models. This raises an important question: can we leverage the
knowledge embedded in these LLMs for temporally consistent long video
generation? In this paper, we propose VideoDirectorGPT, a novel framework for
consistent multi-scene video generation that uses the knowledge of LLMs for
video content planning and grounded video generation. Specifically, given a
single text prompt, we first ask our video planner LLM (GPT-4) to expand it
into a 'video plan', which involves generating the scene descriptions, the
entities with their respective layouts, the background for each scene, and
consistency groupings of the entities and backgrounds. Next, guided by this
output from the video planner, our video generator, Layout2Vid, has explicit
control over spatial layouts and can maintain temporal consistency of
entities/backgrounds across scenes, while only trained with image-level
annotations. Our experiments demonstrate that VideoDirectorGPT framework
substantially improves layout and movement control in both single- and
multi-scene video generation and can generate multi-scene videos with visual
consistency across scenes, while achieving competitive performance with SOTAs
in open-domain single-scene T2V generation. We also demonstrate that our
framework can dynamically control the strength for layout guidance and can also
generate videos with user-provided images. We hope our framework can inspire
future work on better integrating the planning ability of LLMs into consistent
long video generation.